水晶球APP 高手云集的股票社区
下载、打开
X

推荐关注更多

股道的卢

06年入市实战操作至今,经...


价值领航

稳健的投资风格和淘金精神


柴孝伟

建造十九层每层成倍财富高楼...


邢星

邢 星 党员,国...


石建军

笔名:石天方。中国第一代投...


揭幕者

名博


洪榕

原上海大智慧执行总裁


小黎飞刀

黎仕禹,名博


启明

私募基金经理,职业投资人


李大霄

前券商首席经济学家


banner

banner

算力产业近况更新

魔力股   / 05月26日 08:03 发布

1、GPU市场需求

国内需求:因贸易摩擦,国内在商务禁令受限前提下,对英伟达高配芯片采购受限。若贸易摩擦加剧,政策走向自我循环,国产GPU需求将增长,如寒武纪、华为及BAT等自研芯片,通过国有企业或传统行业赋能推动市场需求增长,但开展多模态等复杂应用较困难;若关系缓和,能购买降配版英伟达芯片或其他进口芯片,C端应用广泛的互联网公司会更多开展多模态或复杂型应用,算力需求同样增长。总体而言,国内对GPU需求必然增长,对算力的需求也需跟上。
国外需求:国际市场上,美国在生成式多模态、推动AGI等方面发展激进,技术发展快,对算力需求增长明显;欧洲、南美洲等国家也在推进大模型落地,自今年下半年往后需求呈增长态势。此外,自回归模型较普通大语言模型工作时消耗tokens更多,在agent方向发展会带动tokens消耗,进而增加算力需求。从各角度看,国外对GPU的需求也呈增长趋势。

2、英伟达及国产卡情况

英伟达H20及新芯片:英伟达为适配贸易禁令不断降配芯片,H20若继续降配,国内头部互联网或云服务民营企业大概率不会购买,因性能下降多且成本升高,今年大概率不会有太多订单,除非像腾讯这种错过买H20和H800时机且今年想做大模型又缺卡的公司可能购买。英伟达推出的B20芯片,基于其架构在多模态推理方向表现好,若市场正常发展,国内商业应用公司会考虑购买,因其更符合多模态方向优先、agent应用优先的市场需求,且不区分推理还是训练。
国产卡进展:华为学习英伟达模式,其升腾910C通过双卡3D堆叠式提升了单机架内算力,在DeepSeek或文生文等方向表现尚可;寒武纪芯片参数可行,但在组网及复杂计算涉及的机架内卡间和机架之间数据传输方面缺乏高可用方案,与英伟达相比差距较大。

3、大厂自研芯片

阿里:自研芯片系列方向主要在CPU,服务于阿里云云服务以降低成本,与英特尔等有重叠;平头哥系列用于硬件加速,适用于IOT场景及一些与SSD直接相关的中间处理环节。
百度:昆仑芯基于DPU和RISC-V提供服务,在大模型推理环节已实现商业化推进,分P系列(偏向推理)及1 - 4代,二代之后适配百度大模型的飞桨开发框架,便于工程师写算法代码使用。因推进了从硬件到应用层面的自主可控,受到国内企业尤其是国央企的优先考虑。
腾讯:自研芯片如沧海、云霄等在视频解码和加速方向有作用,可节约英伟达的A系列和T系列芯片。
字节:在视频压缩等方向推进自研,在火山引擎上使用DPU、TPU等,与模型神经网络训练有关,可节约或替代英伟达芯片。同时,字节通过多个壳公司希望和台积电能达成合作,研发至少达到类H20算力的用于多模态推理的高性能芯片。

4、芯片应用场景及业务比例

训练与推理:过去训练消耗算力远高于推理,英伟达因此推出推理卡。但如今在有剧情的文生视频等场景中,推理消耗成本绝对值比训练高,多数多模态推理场景与训练消耗资源相近,英伟达新芯片不再明确区分推理卡还是训练卡。当前阿里、字节等公司在训练方面投入的算力是推理消耗算力的6 - 8倍,但未来训练占比会减小,推理占比增大。
云服务:目前公有云需求未涨起来,中小企业对大模型API或构建agent的需求不足。以火山引擎为例,其tokens消耗量虽大,但90%左右是自身业务消耗,真正公有云消耗较少。而在大模型项目落地的解决方案方向,如政务助手、社保公积金等行业窗口替代人工,tokens是真实推理需求,数量庞大。

5、芯片租赁市场

高性能芯片租赁困难:以英伟达A系列(包含A100、H100、H800、H200等)高性能芯片为例,H200大部分被BAT及新创AI六虎买完,基本不会流入个人或小租赁方手中,且不存在灰色渠道;A100芯片字节购买量超过国家官方进口总量50%左右,像字节这样的公司租A卡行不通;H100和H800卡太贵,通过灰色渠道溢价高,且大规模预训练和推理在技术使用上要求芯片集中,从市场供应量和技术可行性角度,高性能芯片大规模使用的企业租赁高性能芯片存在诸多困难。
字节租赁情况:字节租IDC机房是因自有机房少,需放置购买的芯片;租算力是为解决抖音承接春晚等短视频专项加速及豆包语音聊天情感聊天功能的边缘计算或加速问题,租的是4090、5090消费级卡,且可能是临时租赁。

6、国产卡发展不足

软硬件结合:除华为外,其他国产公司软硬件结合研发能力不足。英伟达软硬件每年滚动迭代升级,华为在这方面的迭代速度跟不上,且存在产能问题。
显存与传输:显存和整体传输能力是显卡关键瓶颈,国产芯片在这方面存在不足,若显存小或传输速度慢,计算频次无法充分发挥,即便使用英伟达芯片也常出现计算单元闲置、显存和传输忙碌的情况。
产能与优化:寒武纪高性能推理卡及训练卡存在产能问题;虽提升性能,但大规模应用公司需考虑成本及编程层面优化问题,且华为新产品存在产能分布和良品率问题,影响老产品供应。

7、国产芯性能进度

昆仑芯:支持DeepSeek满血版,其万卡版每分钟token数,每秒可达4000多token,单机也能做到三四十token,执行上没问题,从生态运行看也无问题,且以DeepSeek为例测试,其整体表现比华为910B好,910B在3500 - 4000 token之间且稳定性不如昆仑芯。
寒武纪:590690系列对标英伟达A系列,能达到A系列70%左右算力标准化,但带宽传输严重瓶颈,且耗电量是A系列好几倍甚至近十倍。

8、GPU市场增速及资本开支

巨头情况各异:采购不会终止,预计增速在今年50%以下。字节和阿里因前期积累多,未来算力采购总量可能是去年的80%左右,预训练减少,推理增加,是算力的迁移;腾讯因前几年使用国产卡效果不佳,25年买卡下手晚,明年采购量会比今年增长得多;百度今年需求不是很大,明年和今年可能持平,若政策走向大模型自我大循环,百度需增加昆仑芯产能或进口芯片以满足推理需求。
社会面变化:华为预估到26年,不算中芯国际北京新厂区,总计产能约85万左右,届时昇腾芯片可能会被抢购,国央企优先购买,互联网公司买到的会减少。


Q&A

Q:目前全球和国内的整个GPU市场的需求情况如何,以及对明后年这两年的景气度有怎样的展望?

A:全球和国内市场未来对GPU的需求应该是持续增长的。国内市场需在商务禁令受限的前提下考虑,有两种可能情况。一是贸易摩擦加剧,政策走向自我循环,国内大模型方向可能形成自我内循环,如国有企业或传统行业的赋能,国产芯片(如寒武纪、华为,包括BAT自研芯片)加文心一言等仍可推进市场需求增长,对国产GPU的需求也会增长,只是做高大上的多模态等事情会较困难;二是贸易关系缓和,未来一段时间内有可能购买英伟达等进口的降配芯片,此时文心一言等比较初级的应用可能会减少,C端应用广泛的互联网公司会更多地做一些多模态或复杂型的应用,算力需求也会增长。在国外,以美国为例,Google发布的Gemini推动生成式多模态和AGI发展激进,技术发展快,这类场景比文心一言需要的算力多很多,是需求增长的来源;跳出美国市场,欧洲、南美洲等国家也在推进大模型落地,从今年下半年往后需求也是增长的。此外,国内像MiniMax、智谱AI、飞猪Agent、星火大模型等背后依赖自回归模型,自回归模型比普通大语言模型工作时消耗的tokens要多几十倍上百倍,在agent方向的发展也会带动tokens消耗,进而带动算力需求增长。

Q:您对H200现在的情况怎么看?如果H20后续不能进入国内,会有什么样类型的新产品出来?

A:英伟达为适配贸易禁令一直在对产品降配,若H20继续降配,国内头部互联网公司或做云服务的民营企业大概率不会购买。H20对比H800、H800对比H100,性价比越来越低,若再有H20降配版,国内可能不会买。目前只有传闻,没有真正落地情况。今年大概率不会推出降配版H20,即便推出也不会有太多订单,除非像腾讯这种前两年错过买H20和H800时机、今年又想做大模型且缺卡的公司有可能购买。关于H20不能进入国内后会有什么新产品出来,文中未提及相关内容。

Q:英伟达和国产卡的份额现在是什么样的情况?

A:对比英伟达和国产卡,先看国产卡的进展。华为在学习英伟达模式,其在英伟达ID卡方面,有类似交换机的设备,910C对比910B采用3D堆叠式,能将单机架内的算力提升四分之一以上,在DeepSeek或文生文等方向上,华为升腾910B和910C表现可行。寒武纪只是芯片参数可行,单卡单价运行算力没问题,但在组网和复杂计算涉及的机架内卡间数据传输和机架之间传输方面,没有高可用方案,与英伟达差距较大,若用寒武纪组网,降配情况可能比H20低配版还严重。

Q:各个大厂自研芯片的推广进度、是否会主要使用自研芯片以及其竞争力如何?

A:国内互联网或应用型公司自研芯片方向有所差异。阿里自研芯片有两个方向,一是CPU方向,服务于阿里云的云服务以降低成本,与英特尔等有重叠;二是平头哥系列用于硬件加速,适用于IOT场景等。百度的昆仑芯在大模型推理环节已开始商业化推进,其P系列偏向推理系列,二代之后适配百度大模型的飞桨开发框架,可用于工程师写算法代码,受国内企业尤其是国央企优先考虑。腾讯的自研芯片如沧海、云霄等在视频解码和加速方向有作用,可节约英伟达的A系列和T系列。字节在视频压缩等方向有推进,火山引擎使用自己的DPU、TPU等,与模型的神经网络训练有关,也可节约或替代英伟达芯片,此外字节还希望通过多个壳公司与台积电商讨合作研发至少能达到类H20算力的用于多模态推理的高性能芯片。其他公司如阿里(分阿里云和蚂蚁集团)、京东等在NPU、DPU或其他加速卡上推进自研能力,整体来看,应用型公司自研芯片主要有替代不该用英伟达芯片的场景和降低成本两个方向。

Q:互联网公司在采购卡时,训练、推理以及云化对外租赁业务的比例是怎样的,未来会有什么变化?

A:过去机器学习时代,训练消耗的算力是推理的好几百倍,英伟达因此推出了推理卡。但发展到当前,如在有剧情的文生视频场景中,推理消耗成本绝对值比训练还高,多数多模态推理场景资源和训练消耗已差不多,英伟达推进新产品时也不再区分推理卡和训练卡。我国若在贸易或政策上强硬,未来一年或一年多可能走向文生场景,在文生文场景下推理比训练节约资源,寒武纪推高性能推理芯片或许认为这个方向是对的,但从大模型发展看,未来大概率不分推理和计算。当前阿里、字节等公司在研发上投入的算力中,训练消耗的算力大概是推理消耗的6 - 8倍,字节可能接近8倍,阿里六倍多但不到8倍。从2026年开始,训练占比会越来越小,推理占比越来越高。公有云需求目前还未涨起来,以火山引擎为例,其日消耗量虽高,但90%左右是自己消耗,社会面上中小企业和个人每天对tokens的消耗量较少,如12.7万亿次中公有云产生的可能不到1.5万亿次。而像百度、科大讯飞等公司做的大模型项目落地赋能项目,tokens很难计算,但国内某些行业窗口替代人工的真实推理需求的tokens是天文数字。

Q:英伟达可能推出基于新框架Blackwell架构的新芯片B20,售价6500 - 8000美金,未来国内采购这种芯片的量相对于H20会有怎样的变化?

A:国内公司大概率会买B20而不买H20。从未来发展看,正常市场发展是多模态方向优先、agent应用优先,需要更多英伟达的先进算力芯片,国产芯片有一定差距。B20不区分推理和训练,采用B架构,在多模态推理方向表现好。如果商业化市场正常发展,国内商业应用公司会考虑B20系列。

Q:为什么基于B系列的阉割版会满足禁令需要,而H系列不能满足禁令要求?

A:GPU物理结构大概分计算单元、显存以及两者之间的传输(NVLink)。H系列在原有芯片物理架构下不能做太多改进,只能缩显存和降低计算频率,这会使表现大幅下降。而B系列整体架构并行速度更好,卡间协作更好,在配置低的情况下,单机内和内的表现损耗较小,所以国内做应用的公司优先考虑B系列,英伟达也更可能推出B系列的降配版。

Q:目前推理侧应用的算力消耗情况如何,对于这块应用在token消耗、用户体量等时间点上有什么目标?

A:当前分析参考意义不大。除阿里外,腾讯、百度等大模型商业公司都关注DeepSeek R2何时发新功能。借助R1大家实现了自推理,但tokens消耗太多,正常情况下自推理的tokens消耗是普通模型的20倍左右,这些公司迫切需要降低tokens消耗。在tokens消耗未降下去的前提下,看tokens日消耗等目标没有意义。以火山引擎为例,2024年末其单日tokens是4万亿,字节自身占3.5 - 3.7万亿,约90%,其余是社会面调用。从2024年到2025年年末,预计有15 - 20倍的增长,火山引擎大模型真实有效的token预计到60万亿左右,字节自用降到80%,20%来自公有云中小企业使用。

Q:目前互联网厂商买卡时采用租赁形式的资金趋势和市场供需情况如何?

A:首先存在一些干扰信息,年初有消息称字节、阿里等公司租 IDC、机房和算力,实际字节租机房是为放置买来的芯片,其自有机房少,只有十几个且集中在怀来、上海等地。字节在今年 1、2 月租算力是做两个方向服务,一是抖音承接春晚时租 4090、5090 消费级卡解决短视频专项加速问题,保证春晚、元宵晚会观看效果;二是春节前后为豆包的语音聊天情感聊天功能做边缘计算或边缘加速,且可能是临时租赁。从高性能芯片租赁市场看,H200 在 2024 年英伟达供应约 105 - 108 万片,90% 被 BAT 及新创 AI 六虎买完,基本不会流到个人或小租赁方手里,且不存在灰色渠道。A 系列(A100 和 H800)应用场景主要是文生图和文生文的训练与推理,字节购买 A100 芯片量超过国家官方进口总量的 50%,所以字节等公司租 A 卡不可行。H100 和 H800 卡太贵,通过灰色渠道溢价进来,一个机架加 8 芯片(不算 IB 卡)可能小 200 万,满配版一机八卡加仪器 IB 报价达 400 万,很多渠道没有财力。从技术使用角度,像 BAT 这样的公司租别人高性能显卡存在数据安全风险。大规模预训练时,英伟达的 IB 交换机有物理距离限制,最好显卡集中在一起,从众多零售租赁商处租赁在工作上不可行。推理环节也存在程序分配工作量大、可靠性低等问题。所以高性能芯片大规模使用的企业租赁高性能芯片在可行性、市场供应量以及技术上都存在困难,万不得已不会零星或大规模租赁。另外,年初有新闻称腾讯疯狂买卡,实际 2024 年末开始预定,2025 年初好货已被抢完,腾讯 2、3 月想花钱都花不出去,4、5 月有消息称腾讯要找字节买卡相对可信。

Q:互联网大厂对国产卡的采购比例如何,除单卡算力和互联方面,国产芯片还有哪些方面需要补足?

A:从两个角度来看,一是从国产芯片需补齐的情况角度,关键核心是软硬件的结合能力,除华为外别的公司大多没有该研发能力。英伟达软硬件迭代式升级,每年能滚动升级,而华为滚动速度跟不上,且存在产能问题。二是从技术角度,一方面华为软硬件结合能力和迭代速度与英伟达有差距,想缩短较难;另一方面显存和整体传输能力是显卡关键瓶颈,国内公司用英伟达时也常出现计算单元闲置、显存和传输忙碌的情况,国产芯片更需在这方面升级。此外,国产芯片还存在更新迭代及产能问题,如寒武纪高性能推理卡和训练卡产能不足;华为产品升级对大规模应用公司存在使用和优化问题;华为新产品产能分布不均、良品率低,老款产量降低需抢购。目前英伟达发展稳定,对国内市场影响大,国内软件生态快速投入市场,硬件因外交贸易摩擦处于慌乱追赶状态,问题较多。

Q:几个国产芯(昆仑芯、沐曦、燧原等非上市公司的国产芯)目前的进度怎么样?

A:昆仑芯支持DeepSeek满血版,其万卡版每秒能做到4000多token,单机版能做到三四十token,执行上没问题,生态运行也没问题。昆仑芯的P系列偏推理做了优化,以DeepSeek为例测试,其表现比华为910B好,910B是通用芯片,临时在软件层面做DeepSeek适配,效果在3500 - 4000之间,不如昆仑芯稳定。寒武纪的590、690系列在带宽传输上是严重瓶颈,围绕对标英伟达A系列,能达到A系列70%左右的算力标准化,但耗电量是A系列的好几倍甚至近十倍。其他多数公司的芯片,外部可能存在夸大宣传情况,技术从业者真实感受是,设芯片研究部门的公司会少量采购组网,做适配或调试,但不会高频测试,因为人力物力和成本有限。

Q:全球中国GPU市场后续增速如何判断,2026年资本开支方向如何?

A:采购肯定不会终止,若增速在今年的50%以下,就有终止的意思。从需求增长角度来看,大语言模型文生文不会再带动大规模预训练,未来规模性预训练是自推理模型的升级,字节和阿里有这方面需求增长;训练层面,一些公司的后训练也会带来增长;英伟达适配版B200的突破对多模态训练有支持,大家会持续投入。不同公司情况有差异,字节和阿里前期积累多,未来算力采购总量明年最多是今年的80%左右,因为预训练逐渐变少、推理变多,但这只是算力迁移;腾讯明年采购量比今年多,其2023年用国产卡,2024年发现国产卡与英伟达差距大,2025年买卡下手晚,二季度还传出找字节买卡;百度明年和今年可能持平,其推理端需求涨幅大,若政策走向大模型自我大循环,百度需增加昆仑芯产能或进口更多芯片来满足文场景算力,推进私有化和赋能项目。从社会面看,预计到2026年,不算中芯国际北京新厂区,华为总计产出产能约85万,华为昇腾芯片可能会被抢购,国央企优先购买,互联网公司买到的会少一些。股市调研