-
AI算力数据中心全景解析
糖芯儿 / 06月05日 21:53 发布
近期全球AI算力行业持续催化。英伟达股价自4月初低点以来回升超44%,已接近前高,国内外算力产业链迎来共振机遇。
6月4日,亚马逊宣布计划在美国北卡罗来纳州投资100亿美元,扩大云计算基础设施并推进人工智能创新,预计将创造500个新的高技能工作岗位。
网络端方面,全球网络芯片龙头博通正式打响AI算力基建升级战。博通近期宣布交付交换机芯片Tomahawk6,有望推动算力规模普遍从万卡向十万卡进行升级,为万亿参数大模型的训练与推理提供基础支撑。xAI、Oracle、微软、Meta等厂商均有十万卡甚至百万卡的建设计划。
国内方面,互联网大厂算力需求旺盛,互联网巨头正在引领开启AI基建新一轮大规模投资。阿里巴巴集团官方表示未来三年,将投入超过3800亿元人民币,用于建设云和AI硬件基础设施。腾讯今年的Capex将达到千亿级别。
算力基础设施建设正在成为本轮AI发展重点。
本文重点解析算力基建AI数据中心核心环节:液冷服务器、PCB、光通信、铜缆高速连接、交换机。
01
AI数据中心概览
AI大模型降本增效推动算力需求爆发增长,驱动数据中心向“智算中心”转型。
AIDC(人工智能数据中心)是专门为人工智能计算任务提供算力服务、数据服务和算法服务的新型算力基础设施。
AIDC和通用数据中心对比:
AIDC和通用数据中心相比主要在搭载芯片类型、应用场景、机柜功率等方面存在显著差异。
芯片类型:通用数据中心主要搭载CPU芯片,主要适用于一般性计算需求;AIDC普遍采用CPU+GPU形式的异构服务器,提供矩阵运算的高性能计算能力,用于深度学习、机器学习以及大规模数据处理任务,如自动驾驶、科研计算、生成式AI智能语言模型等领域,处理的计算任务通常较为复杂。
机柜功率:通用数据中心单机柜功率相对较低,一般在2-10KW;AIDC单机柜功率较高,通常在12-24KW或以上,当前AI对算力需求的持续攀升,单机柜功率还将进一步提升。
02
AI数据中心建设格局
当前全国智算中心建设热潮加速,据统计,已有140多个项目分布在至少23个省市,北京、杭州、苏州、成都等仍是建设主力,三四五线城市也逐渐被覆盖。
国外智算中心以公有云部署为主,由AWS、微软、英伟达等科技巨头主导。
国内智算中心的建设和运营覆盖多个领域和厂商,除了大型互联网企业如阿里云、腾讯云、百度云等云服务商外,还包括三大运营商以及第三方领域玩家。
传统的IDC企业也在加速转型为AIDC。整体市场格局来看,AIDC更强调生态协同及规模,算力服务企业头部厂商在AIDC建设及运维优势更显著。据信通院数据,总体规模排名前十的IDC厂商包括万国数据、秦淮数据、润泽科技、世纪互联、数据港、普洛斯、中金数据、有孚、光环新网和浩云长盛。万国数据、秦淮数据、润泽科技、世纪互联、数据港等总体规模指数排名靠前的IDC厂商在集约发展指数和能力建设指数中的排名中也保持领先。
国内部分AIDC项目:珠西科学城智算基地与珠海高新区、中国电信、中国移动、中国联通、华发集团合作,旨在打造高性能算力设施“超强大脑”,首期预计年底建成2000P算力规模,将为珠海市“云上智城”建设、珠西科学城产业培育发展提供坚实算力基础;淮海智算中心目标算力规模300PFLOPS,与浪潮集团合作,总体投资10亿元,全面建成后其智能算力性能将达30亿亿次每秒;豫东南智算中心与莲花控股、周口移动等签约,一期项目将依托周口移动已有机房快速落地,二期项目基于莲花控股园区新建IDC及智算中心。
地方算力相关:浙江地区本地算力以新华三、杭钢、浙大网新、浙数文化、宁波建工、华数传媒、中恒电气等厂商为代表;北京有中科曙光、首都在线、亚康股份、龙芯中科等算力厂商;上海以数据港、云赛智联、城地香江、安诺其等为代表;深圳算力厂商有中兴、怡亚通、南凌科技、英维克等。
此外,有方科技、盈峰环境、宏景科技、协创数据、润建股份等加速布局算力租赁业务。
03
AI数据中心产业链
AI数据中心连接上下游软硬件生态,国产生态链加速适配完善。涵盖建设土建基础设施、核心硬件服务器、芯片、网络设备中的交换机、路由器和光模块等;电力供应设备、机柜机架以及AI平台软件等。AI服务器
AI服务器是数据中心的基础硬件设施。AI算力芯片是AI服务器的核心,分为通用型AI芯片和专用型AI芯片。
通用型AI芯片主要包括CPU、GPU、DSP、FPGA等,专用型AI芯片主要包括TPU、NPU、ASIC等。
按应用场景,AI服务器可分为训练和推理两种。
在AI大模型发展早期,AI服务器需求以模型训练为主,训练型服务器占据市场主体地位;随着生成式AI应用发展,预计未来推理型服务器将逐渐成为市场主流。
液冷服务器在高功率密度服务器场景下,为了解决机柜间的散热需求,液冷方案逐渐兴起。
相比于风冷,液冷散热能力更强,同时可以降低数据中心的PUE。
液冷服务器采用液体冷却技术的服务器系统,通过将液体注入服务器内部,利用冷热交换原理将服务器产生的热量带走,从而实现高效散热。
据IDC圈统计的数据,截至2024年11月,统计的42个液冷智算中心项目中,35个为2024年新增,液冷智算中心建设落地呈加速趋势。运营主体看,在统计的42个液冷智算中心中,三大运营商项目占11个,政府及国企项目9个,龙头企业7个项目,科技公司6个项目,上市公司共4个项目。
国内厂商浪潮信息、新华三、宁畅、中科曙光、曙光数创、中兴通讯、高澜股份、英维克、中国长城等厂商是液冷技术不同路线的代表厂商。
中科曙光自2011起开始探索液冷技术,承建的液冷数据中心已经落地了数十座,累计建设规模超过200兆瓦;新华三早在2017年就已经在R4900G2机架服务器上做了冷板预研;浪潮信息在2022年提出了“Allin液冷”战略,全栈布局液冷技术;英维克布局液冷全链条解决方案。
液冷上下游产业链各环节入局者众多,飞荣达、依米康、科华数据、光迅科技、网宿科技、工业富联、拓息等一众厂商在各细分领域都有参与布局;近年来第三方厂商也加速进入这一市场,专业温控厂商英维克、申菱环境、高澜股份、同飞股份等已有多个项目成功落地
PCB/CCL
PCB即印制电路板,是用于连接和支撑电子元器件的核心部件。
服务器作为高性能计算设备,对PCB的可靠性和信号完整性及散热能力要求极高。
AI服务器中的CPU、GPU、内存、硬盘等核心组件通过PCB实现物理固定与电气连接。GPU模组板采用多层通孔PCB与高导热材料用来辅助散热。
PCB以及CCL覆铜板(PCB制造的关键基础材料)相关零组件受益于高端产能紧缺下的供需紧张,具备协同开发合作能力的厂商具备先发优势。产业链相关厂商众多,如胜宏科技、沪电股份、生益科技、生益电子、深南电路、景旺电子、世运电路等加速布局。
网络端设备
算力化趋势带动网络互联需求。
网络设备是AI数据中心内部和外部通信的关键组件,负责实现数据的高效传输和交换。
主要包括光模块、交换机、路由器等多种类型。
每一代新的交换芯片的推出都是光模块速率升级的重要契机。
光模块
网络和内存是算力的瓶颈。
光模块目前是提升AI服务器间通信能力的主流解决方案,对提升网络效率至关重要。
AI大模型的训练和推理应用需要海量并行数据计算,对网络带宽提出更大的需求,进而推升高速光模块需求。
当前光模块朝着更高的速率的趋势发展。从1.25Gbit/s发展到2.5Gbit/s,再到10Gbit/s、40Gbit/s、100Gbit/s、单波长100Gbit/s、400Gbit/s乃至1T。
近期,光通信行业研究机构LightCounting公布了2024年度全球TOP10光模块供应商榜单。
LightCounting表示,到2020年,大多数日本和美国供应商已退出该市场,而中国供应商的排名则不断提升。
旭创科技(中际旭创)和新易盛将其业务重点聚焦于服务北美云公司,这一策略在2024年获得了丰厚回报,实现了创记录的盈利能力。旭创科技的收入在2024年增长了114%,超过33亿美元,该公司扩大了与长期竞争对手Coherent的差距。新易盛排名从2023年第7位上升至2024年第3位。
旭创科技和新易盛几乎完全专注于高速以太网光模块,这一细分市场在近两年增速迅猛。光迅科技、海信宽带、华工正源(华工科技)也受益于2024年底中国云公司对光模块产品的需求增长,预计这些供应商在2025年将迎来更高增长。
资料来源:LightCounting
光引擎/硅光芯片:由于光引擎中除了硅光芯片需要FAU等无源器件,国内厂商例如天孚通信提供光通信系统中所需的各种光源组件,如激光器、光放大器等,凭借丰富的无源器件产线进入大厂供应链。激光光源方面,国内厂商如源杰科技通过成本优势进入大厂供应链。
CPO:新技术CPO方面,国内光模块厂商也在相继布局研发。据不完全统计,中际旭创、新易盛、联特科技、罗博特科、通宇通讯、中京电子、天孚通信、光迅科技、德科立、仕佳光子、亨通光电、华工科技、剑桥科技等多家国内公司已经开始布局CPO相关技术研发或业务。
硅光:在更高速率的光模块加速演进路径下,硅光应用也得以加速发展。目前外置CW光源是硅光光模块的主流方案,且可进一步应用于CPO等场景,CW光源需求量有望进一步发展。国内厂商源杰科技提供包括大功率硅光光源产品在内的多种产品;仕佳光子不同型号的CW光源已在部分硅光高速光模块中得到小批量应用;长光华芯也亮相了100mWCWDFB大功率光通信激光芯片新品。此外,光器件厂商太辰光、光迅科技等也在积极布局硅光。设备配套相关厂商包括罗博特科、杰普特等。
未来硅光技术引入高性能计算平台:
铜缆高速连接
铜缆高速连接是数据中心内部互联的重要组成部分。
铜缆方案用于AI短距传输,改变传统GPU的内部连接方式。
2024年3月,英伟达在GTC大会上发布了AI芯片GB200以及与之配套的NVL72/NVL36机柜,首次将铜缆引入机柜内连接中。
英伟达新一代服务器GB300进一步优化铜缆连接方案,同时AEC渗透有望带来铜连接材料需求量提升。
该领域国内主要参与厂商包括兆龙互联、博创科技、沃尔核材、瑞可达、神宇股份、立讯精密等;高速背板连接器主要参与厂商包括华丰科技、意华股份、庆虹电子、中航光电、陕西华达、神宇股份等。
交换机
交换机在数据中心中主要负责连接服务器,以及存储设备等网络设备。
交换机产业链上游主要包括芯片、电子元器件供应商与交换机代工商,产业链中游为交换机品牌商(白盒与非白盒),下游为重点应用客户。
商用以太网交换芯片市场主要由博通、Marvell与Realtek主导,国内厂商盛科通信在商用以太网交换芯片国内排名第一,全球第四。
国内交换机行业集中度较高,呈现寡头竞争的竞争格局。华为、新华三和锐捷网络占据大部分的市场份额,思科和中兴通讯紧随其后。
品牌商方面,新华三2024年10月发布业界首款1.6T智算交换机,800G交换机开始小批量出货;锐捷网络订单集中于字节、阿里、腾讯等Tier1互联网客户智算中心建设领域,800G交换机实现对于Tier1互联网客户的小批量发货;中兴通讯51.2T盒式交换机已实现在互联网厂商侧规模商用。代工商方面菲菱科思与新华三等客户中高端交换机业务合作稳步推进;共进股份800G交换机已开始陆续交付。
液冷交换机方面,阿里和锐捷网络合作产品LiquidTigatron交换机采用先进的液冷技术;新华三提供多种型号的液冷交换机,如S5500V2-52C-EI等。
AI数据中心电力供应设备
AI算力需求高速增长,带动数据中心电力设备的强劲需求。
机柜内电源(AI服务器电源)
机柜内电源具备高功率密度能在有限的空间内提供足够的电能。
市场格局方面,目前中国台资企业占据全球电源主要市场份额。
据MTC数据显示,在全世界前16大电源厂商中,中国台湾地区厂商占据了7席,其中,台达电子位居首位,市占率约为69%;光宝科技紧随其后排名第二,市占率约为15%-20%。中国大陆企业中,仅有麦格米特和欧陆通跻身榜单。
机柜外电源(UPS/HVDC)
机柜外电源安装在机柜外部,为数据中心或是特定区域内的IT设备提供稳定电能的电源设备。
UPS:是含有储能装置,以逆变器为主要组成部分的恒压恒频的不间断电源,为设备提供恒压恒频的不间断电源;其响应时间为毫秒级,稍慢但稳定。该环节相关布局厂商包括科华数据、禾望电气、中恒电气、科士达、英威腾、盛弘股份、维谛技术、通合科技等。
传统的UPS技术成熟可靠性高,但需经过AC/DC-DC/AC两级变换,而HVDC仅需AC/DC一次变换,因此效率更高。
HVDC电源:即高压直流电源,是采用直流电进行供电的技术。近年来,中国电信、中国移动、中国联通等各大移动运营商都在大力推广HVDC电源,以提升数据中心的能效和可靠性;国内互联网大厂也在主推HVDC-巴拿马电源,其集成度和效率均优于传统的UPS和HVDC方案。中恒电气、科华数据、科士达、动力源、禾望电气、英可瑞等厂商在该领域都有所布局。
备用电源:柴油发电机、BBU
数据中心传统备用电源布局为“UPS+柴油发电机”组合方案”,BBU后续有入局替代UPS的机会。
柴发:为数据中心重要备电应急方案,柴油发电机是以柴油为燃料的小型发电设备,能够持续供电,其中发动机是最核心部件,占总造价的80%左右。当前国内头部厂商潍柴重机、玉柴机器等扩产,以及AI发展趋势下国内数据中心应用巨头资本扩张,国内厂商供应份额有望提升,参与厂商还包括新柴股份、科泰电源、华丰股份、神驰机电等。
BBU:作为备用电源系统,通过锂离子电池提供短期供电保障。采用5+1的冗余架构,一组BBS(电池备份系统)包含六个BBU模块和一个PMI监控模块,电池多为18650锂电池;切换速度在毫秒级,可靠性强;较UPS切换速度更快,但持续能力稍弱。市场格局方面,BBU电池市场当前以日韩主导蔚蓝锂芯、亿纬锂能等厂商在该环节有所布局。
超级电容:是介于传统电容器和电池之间的电化学储能装置,能“瞬时”提供功率补偿且响应更快,有望成为备电组合新成员。国内厂商江海股份、法拉电子、风华高科、振华科技等众多厂商都在该领域有所布局。乐晴智库精选