-
高盛:中国人形机器人实地调研纪要
A涨 / 05月24日 20:51 发布
我们于5月19日至20日在北京/深圳走访了8家人形机器人企业,并于5月21日在上海举办的高盛科技网络会议(GSTechNet)上与3家机器人行业公司(创始人/研发负责人)进行了小组讨论(共覆盖7家私营初创企业、6名高管)。
多数行业参与者认为,机器人必须将通用智能与实际应用结合才能实现规模化。实现这一目标依赖四项核心技术:算法、数据、算力和硬件。尽管中国在硬件供应链方面保持强大领先地位,但初创企业已开始致力于开发人形机器人的“大脑”。各公司普遍认为,视觉-语言-动作(VLA)模型是可行解决方案,而高质量的真实世界数据对于实现与物理世界的一致性和任务准确性愈发重要。企业正投资建设“数据工厂”以大规模收集机器人真实交互数据,我们走访的一家公司估计,达到通用型(L3)能力需要1000万小时的数据,需投入1亿至2亿美元。在计算方面,英伟达的JetsonOrin仍占主导地位,但中国企业已开始探索与华为合作。
鉴于精细运动控制和摄像头辅助物理数据收集的重要性,硬件开发的重点日益集中在配备触觉和力反馈传感器的灵巧手上。在实际应用方面,物料搬运和分拣等工业场景常被提及为早期商业机会,而消费级应用因除技术要求外还面临额外的安全和监管障碍,距离落地仍较遥远。在定价方面,人形机器人价格因功能规格差异显著(1.5万至10万美元),行业普遍预期规模生产和组件优化将推动成本下降。
总体而言,我们对人形机器人技术进展和行业长期前景持积极看法,维持行业预测:2025年全球出货量2万台,2035年达140万台。
在股票影响方面,我们仍关注零部件供应商,如三花智控、雷赛智能、贝斯特、鸣志电器。我们认为,数据收集相关供应链企业可能成为新增受益者。关键观察事件:8月15日至17日在北京举办的世界人形机器人大会,将设置(1)13项运动及表演赛事,如田径、自由体操、足球比赛、单人/团体舞蹈;(2)6项应用场景赛事,包括工厂环境中的物料搬运与整理、医疗场景中的药品分拣与拆包、酒店场景中的互动接待与清洁。我们注意到,与2025年4月19日在北京举办的主要展示硬件可靠性/耐用性和运动控制能力的人形机器人半程马拉松相比,此次赛事将更全面地展示人形机器人技术(尤其是智能性、通用性和敏捷性)。
详细要点:
人形机器人企业认为,若要实现商业化,人形机器人必须具备通用智能并能够执行实际任务。为实现这一目标,四项核心技术至关重要:(1)算法,(2)数据,(3)算力,(4)硬件。硬件和软件缺一不可,发展通常呈螺旋式迭代——硬件进步推动软件提升,反之亦然。尽管人们普遍认为中国在硬件供应链方面具有强大优势,但在此次走访中,我们注意到初创企业正加大研发投入以增强人形机器人的“大脑”。
算法:VLA模型被视为可行解决方案
在生成式AI领域,大语言模型(LLM)通过大数据分析处理文本并输出相关文本,而视觉-动作-语言(VLA)的核心架构与标准LLM并无根本差异,不同之处在于输入变为视觉与动作的融合,输出为机器人预期执行的动作。VLA架构是多数公司普遍接受的基础,部分公司还将触觉信息作为另一种输入整合其中。一位企业高管表示,中国在算法结构的研究质量上可能比美国落后0.5-1年,但正快速追赶。
VLA被视为早期成功方向,但某初创企业CEO也指出,它可能并非最终解决方案,并提及深度学习中的早期循环神经网络(RNN)——虽为重要基础,但随着架构成熟可能被取代。尽管如此,当前围绕VLA的工作对未来模型突破至关重要,该领域预计将经历3-4次重大迭代。
数据:高质量数据最为关键
使用数据训练模型通常分为三个步骤:
人工工作视频预处理:教授模型常识知识和任务结构,例如教机器人逆时针打开水瓶。
监督微调(SFT):使用远程操作收集的数据或仿真数据对算法进行微调,提高精度。
人类反馈强化学习(RLHF):在真实复杂环境中实际执行预期动作并优化行为。
尽管存在争议,但多数观点认为高质量真实数据最为关键:基于上述训练机制,当前使用三种数据——2D视频、远程操作数据和仿真数据。我们的访谈显示,关于哪种数据最有效训练具身AI系统仍存争议。有人认为仿真数据因可扩展性和低成本最具优势,也有人强调真实数据的重要性,因其更能捕捉物理一致性(即遵循真实世界物理规律)。此外,拥有多样化数据集以测试各种场景下的动作至关重要。在仿真环境中构建多样化场景未必成本更低。总体而言,多数人认同“数据配方”的必要性,即三种数据的有效融合,而高质量真实数据因以下特性最为关键:1)准确性(动作与物理现实的匹配程度);2)多样性(环境、物体类型和动作的可变性)。
规模需求达1000万小时,催生“数据工厂”:某初创企业CEO估计,要达到L3级通用自主能力,需要1000万小时的机器人真实数据。这相当于1万台机器人或操作员持续工作2年的工作量,需投入1亿至2亿美元,催生了“数据工厂”概念:多家企业已将数据收集基础设施(“数据工厂”)视为战略投资。
关于硬件特定限制的争议:对于从一台机器人收集的数据可在多大程度上应用于另一台机器人,存在不同观点。有人认为“动作输出”通常易于在机器人间迁移,也有人指出,尽管最终希望构建可跨不同形态机器人扩展的VLA模型,但当前数据仍必须与硬件紧密绑定,因模型尚处于早期阶段。
即使在远程操作数据中,也存在多种数据收集方法:
基于视觉的系统(摄像头或VR):成本最低、扩展性最强,但精度最低(厘米至分米级)。
惯性测量单元(IMU)传感器:安装于关节处,精度达毫米级,但存在漂移/累积误差。
光学动作捕捉系统(如辰视智能子公司FZMotion提供的解决方案,凌云光):使用多摄像头和反光标记,精度可低于0.1毫米。
政府支持效果有限:某公司提到政府对基础模型和部分数据提供补贴。关于政府支持的数据收集中心,即使政府共享开源数据集,可能有助于某些预训练,但不足以实现垂直领域的微调或任务级掌握。
算力:英伟达占主导,部分企业与华为合作
由于边缘计算限制,企业正采用“快+慢”系统:训练或处理更复杂任务时仍需4090/3090等高端GPU,同时使用边缘设备Jetson(Orin、Thor)运行VLA模型以实现机载感知、规划和轻量级推理。
但部分本土初创企业正与华为合作,显示在地缘政治风险下构建国产计算基础设施的努力。
硬件改进重点:灵巧手
几乎所有受访企业均指出,灵巧手在为近期数据收集做准备及中长期在工厂处理更复杂敏捷任务中至关重要。人形机器人的多数其他组件(如减速器、电机、丝杠)因供应商增多和行业努力已日益普及,尽管这些组件在耐用性、可靠性和散热方面仍需改进。然而,灵巧手是主要瓶颈,原因包括:(1)不同机械设计难以平衡承重、灵活性和成本;(2)触觉传感器性能和成本竞争力不足——触觉传感器通过收集力、扭矩、温度、纹理、摩擦等物理参数,对训练和改进机器人AI模型至关重要。我们访谈的一家国内触觉传感器公司正尝试:(1)引入明确的数据标准,通过灵巧手简化数据收集、处理和训练,并通过设计、算法和材料创新降低传感器成本,其传感器均价已比海外同类产品低50%以上。
工业场景(物料搬运/分拣)可能成为早期应用,消费级应用仍遥远
物料搬运常被人形机器人企业视为工厂中的早期商业机会,因其跨行业需求广泛且对任务性能(尤其是准确性和效率)的容忍度较高。某公司称其人形机器人在物料搬运中已达到95%的准确率,另一家公司表示,该任务速度达人类劳动的30%(若机器人每天两班倒则达60%),小规模应用预计始于2025-2026年。分拣是另一个需求更大的场景(不仅在工厂,还包括药店等零售场景),尽管对速度的要求比物料搬运更高。企业还提到码垛/卸垛和装卸任务的巨大需求(如某大型电动汽车公司有2万名工人执行此类任务),但仍存在许多技术瓶颈(如识别小物体或颜色相近的物体)。此外,尽管人形机器人制造商对长期消费级应用需求(如家务劳动)持乐观态度,但他们指出,高度多样化的消费环境对技术要求极高,更不用说监管和安全/隐私问题。
此外,商用机器人已部署在导引和互动接待场景,这些场景对VLA性能要求较低。据某初创企业称,这些用例今年的出货量超出预期。
不同规格和应用的均价差异大,成本下降潜力显著
我们走访的企业提供的人形机器人均价在1.5万至10万美元之间,主要因规格不同。行业共识表明,目前尚无满足所有应用的通用设计。低价端产品嵌入的智能/AI能力非常有限,仅具备基本硬件规格(自由度有限,无灵巧手或视觉传感器),能够快速完成基本动作(如行走、挥手)和预设动作(如跳舞),主要销售给大学和AI实验室用于研究,或企业/政府用于接待或娱乐。另一方面,高端产品通常在手臂使用谐波减速器(而非行星减速器)和滚珠丝杠(而非连杆),并配备视觉摄像头、力/扭矩传感器和带触觉传感器的灵巧手,旨在通过AI/自主功能在工厂环境中执行精细或重型任务。多数公司预计2025年机器人年出货量为数百台。展望未来,所有企业均认为人形机器人具备显著成本下降潜力,驱动力包括生产优化(如专用设备和生产线)和产量提升降低单位折旧及前期开发成本(如研发和模具),这将为制造客户带来更好的投资回报率(ROI)。每日调研精选