-
【国盛计算机】Coding驱动全球AI应用闭环
A股计划 / 06月15日 13:08 发布
核心观点 基础模型编程能力进步迅速,AI Coding落地加速。Coding是生成式AI落地最快的领域之一。从2024年到2029年,代码生成行业的复合年增长率预计将达到53%。斯坦福大学的报告发现,专业开发人员仅占美国劳动力的3.4%,但已经占Claude对话的37%。AI Coding效果好的原因包括:代码本质上更加结构化;代码生成系统的输出可以立即测试;代码质量有明确的评估基准。GitHub等社区有海量的训练数据。基座大模型的编程能力持续提升是AI Coding加速落地的核心动力, 5月23日,Anthropic推出Claude 4系列,称Claude Opus 4 是世界上最好的编码模型,在复杂、长时间运行的任务和Agent工作流程上具有持续的性能。Claude Sonnet 4也相对Sonnet 3.7显著改进,平衡了内部和外部用例的性能和效率,并增强了可控性。
海外AI编程龙头Cursor商业化成果显著,估值飙升。当前各类AI编程工具层出不穷,Innolead总结大致可以分为三大类:1)面向广大消费者和开发者的通用多模态模型(如Claude、Gemini、ChatGPT);2)中等规模的专业消费者工具(例如 Bolt、Replit 或 Lovable);3)专业级编码工具(例如 Cursor、Poolside 和 Windsurf),真正适合在大型系统上协作的软件团队。AI编程助手开发商Anysphere凭借Cursor产品强势崛起,Cursor以独特的“氛围编程”体验引领风潮,通过智能预测、自然语言交互和深度集成显著提升开发效率,已吸引超3万家企业客户,其开发商Anysphere于今年6月完成9亿美元新一轮融资,公司估值飙升至99亿美元,半年多前的2024年12月估值仅为25亿美元,增长势头迅猛。截至2025年6月,其ARR已突破5亿美元大关,相较于4月中旬披露的3亿美元,短短两个月内飙升了60%,印证了市场对AI编程工具的爆发性需求。OpenAI年初曾提出收购要约,但被Anysphere拒绝。随后OpenAI以约30亿美元收购了竞品Windsurf。 字节TRAE月活过百万,AI Coding为火山引擎大会要点。6月11日,火山引擎 Force 原动力大会在北京举行,AI Coding为11日主论坛重要内容,AI编程产品TRAE也是6月12日开发者主论坛重要内容。截至目前,TRAE月活用户超过100万。字节技术副总裁认为AI Coding的意义包括:1)技术普惠:代码是数字世界的基础生产力工具。AI前所未有地降低了大众掌握代码能力的门槛。2)提升研发效率:在字节内部,有超过80% 的工程师在使用 TRAE 这样的产品辅助开发。3)追求智能上限:Coding 作为一种高度结构化、逻辑严密的任务,对模型理解复杂的语义结构、逻辑推理、算法设计和精确表达都有很高的要求,能很好地助力模型智能上限的探索。字节未来展望:不只是AI Coding,是AI Development: Coding只是软件开发的一个环节,软件开发要写文档、做运维、做调试、发布、还要 Debug,做压力测试。随着模型能力的进步,AI有机会把这些工作统筹起来成为调度者,让软件开发 all in one。 Anthropic分享Multi-Agent研究系统架构。关于Multi-Agent(多智能体)的研究也是当前业界重要方向,6月13日,Anthropic发文分享了他们如何构建多智能体研究系统。研究工作涉及开放式问题,很难提前预测所需的步骤,这种不可预测性使得Agent特别适合研究任务。以claude opus 4为主Agent,并由claude sonnet 4为子Agent的多智能体系统,在内部研究评估中的表现比单Agent的claude opus 4高出90.2%。多智能体系统之所以有效,主要在于它们能够帮助消耗足够的token来解决问题,工具调用次数和模型选择是另外两个因素。Agent通常比聊天交互多消耗 4 倍令牌,而多智能体系统则比聊天多消耗 15 倍token。因此多智能体系统需要执行那些价值足够高的任务,以抵消其性能提升带来的成本。 : 算力:寒武纪、海光信息、阿里巴巴、奥飞数据、协创数据、沪电股份、新易盛、中际旭创、胜宏股份、海南华铁、云赛智联、潍柴重机、科华数据、利通电子、大位科技、玉柴国际、亿田智能、有方科技、宏景科技、东阳光、弘信电子、圣阳股份、润建股份、深信服、神州数码、深桑达、品高股份、金山云、南都电源、云天励飞、优刻得、云从科技、浪潮信息、中科曙光、太极股份、首都在线、杭钢股份、数据港、南兴股份。 Agent:阿里巴巴、腾讯控股、金山办公、泛微网络、金蝶国际、鼎捷数智、拓尔思、朗新集团、用友网络、宇信科技、京北方、中科金财、麦迪科技、致远互联、金桥信息、汉得信息、软通动力、上海钢联、新致软件、同花顺、信雅达、萤石网络、润达医疗、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、光云科技、科大讯飞、万兴科技、海天瑞声、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、嘉和美康、新大陆、新开普等。 自动驾驶:江淮汽车、赛力斯、小鹏汽车、理想汽车、禾赛、地平线、世运电路等。 军工AI:能科科技、品高股份、普天科技、海格通信等。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。
报告正文 01
基础模型编程能力提升,AI Coding落地加速据外媒innolead在6月9日的报道,编码和软件开发支持已成为生成式 AI 最突出且增长最快的用例之一。,从2024年到2029年,代码生成行业的复合年增长率预计将达到53%的惊人增长。斯坦福大学发布的《2025 年人工智能指数报告》发现,专业开发人员仅占美国劳动力的 3.4%,但已经占Anthropic 的 Claude 对话的37%。值得关注的是许多开发人员都认为Claude暂时比 Gemini或ChatGPT或其他公司更具优势。
图表1:Claude使用数据中的职业代表性与美国劳动力分布
资料来源:Anthropic官网,国盛证券研究所
生成式AI 编码为何如此有效?Innolead总结原因有三:1、代码本质上更加结构化,为 LLM 训练提供了更受约束的数据空间。
2、代码生成系统的输出可以立即测试;代码要么有效,要么无效。
3、代码质量有明确的评估基准(好、更好、最好),可以更轻松地进行微调和模型改进,包括人为微调和自动微调。
同时,GitHub等代码社区海量的高质量代码库,也为模型训练提供了丰富的数据。
基座大模型的编程能力持续提升是AI编程工具落地加速的核心动力:2025年5月23日,Anthropic推出Claude 4系列模型:Claude Opus 4 和 Claude Sonnet 4,Anthropic称Claude Opus 4 是世界上最好的编码模型,在复杂、长时间运行的任务和Agent 工作流程上具有持续的性能。Claude Sonnet 4 是 Claude Sonnet 3.7 的重大升级,提供卓越的编码和推理,同时更精确地响应指示。
Claude Opus 4是Anthropic最强大的模型,在SWE-bench (72.5%) 和 Terminal-bench (43.2%) 上领先。它可以在需要集中精力和数千个步骤的长时间运行任务上提供持续的性能,并且能够连续工作数小时,性能大大优于所有Sonnet 模型,并显著扩展了 AI 代理可以完成的工作。Claude Opus 4 擅长编码和解决复杂问题,为 Frontier Agent 产品提供支持。Cursor 称其为最先进的编码技术,是复杂代码库理解的飞跃。Replit 报告提高了多个文件中复杂更改的精度和显著进步。Block 称其为第一个在其代理 codename goose 中编辑和调试期间提高代码质量,同时保持完整性能和可靠性的模型。Rakuten 通过要求苛刻的开源重构独立运行 7 小时并持续运行来验证其功能。Cognition 指出,Opus 4 擅长解决其他模型无法解决的复杂挑战,成功处理了以前模型错过的关键行动。Claude Sonnet 4 显著改进了 Sonnet 3.7 的行业领先功能,在SWE上以最先进的72.7% 的编码能力表现出色。该模型平衡了内部和外部用例的性能和效率,并增强了可控性,从而更好地控制实施。
图表2:Claude 4 模型在 SWE-bench Verified 上领先,SWE-bench Verified 是实际软件工程任务的性能基准
资料来源:Anthropic官网,国盛证券研究所
Claude Opus 4 在内存能力方面的表现也大大优于所有以前的型号。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息。这能够提升代理在长期任务中的感知能力、连贯性和执行性能——例如,Opus 4 在玩宝可梦时能够创建“导航指南”。图表3:记忆:当获得对本地文件的访问权限时,Claude Opus 4 会记录关键信息以帮助改进其游戏体验
资料来源:Anthropic官网,国盛证券研究所
02 海外AI编程龙头Cursor商业化成果显著,估值飙升 当前各类AI编程工具层出不穷,Innolead总结大致可以分为三大类:
1)第一类是面向广大消费者和开发者的通用多模态模型,例如 Claude、Gemini、ChatGPT 等。许多非程序员通过创建各种简单的脚本和基础应用,发现了“编程的乐趣”。2)第二类是中等规模的专业消费者工具(例如 Bolt、Replit 或 Lovable),它们的目标客户是希望快速将创意转化为可运行应用程序的创意和创新专业人士。这些系统的输出包含托管功能,其模型在现代网页设计调色板上进行训练和调整。
3)第三部分是真正的专业级编码工具(例如Cursor、Poolside 和 Windsurf),这些工具可能对像我这样的新手来说很容易上手,但真正适合在大型系统上协作的软件团队。这些工具可以自动化开发团队的许多繁琐工作,例如生成平台的云实例,在 GitHub 等代码存储库中创建提交和 PR(“拉取请求”)。而且,它们还经过精心设计,可以识别和修复代码中的错误,其中许多工具可以自动执行此类过程。
据新浪财经,AI编程助手开发商Anysphere凭借Cursor产品强势崛起,Cursor以独特的“氛围编程”(Vibe Coding)体验引领风潮,通过智能预测、自然语言交互和深度集成显著提升开发效率,已吸引超3万家企业客户。Anysphere于今年6月完成9亿美元新一轮融资,公司估值飙升至99亿美元,正式跻身全球顶级AI独角兽阵营。本轮融资由老股东Thrive Capital领投,a16z、Accel等知名机构跟投。值得注意的是,这已是该公司近一年内的第三次融资,半年多前的2024年12月,其完成100万美元融资时估值仅为25亿美元,增长势头迅猛。 Anysphere展现出的强劲商业化能力。截至2025年6月,其ARR已突破5亿美元大关,相较于4月中旬披露的3亿美元,短短两个月内飙升了60%,印证了市场对AI编程工具的爆发性需求。
Anysphere的迅速崛起已引发行业巨头高度关注,OpenAI等公司今年初曾提出收购要约,但被Anysphere拒绝。随后,OpenAI以约30亿美元收购了竞品Windsurf。Cursor的部分功能如下:
Tab:Cursor拥有强大的自动补全功能,可预测用户的下一次编辑。启用后它始终处于打开状态,并将考虑用户最近的更改,跨多行建议对代码进行编辑。
Chat:允许用户与看到代码库的AI交谈。可以向它询问诸如:“这里有bug吗?”的问题。
Ctrl K:允许用户使用AI编辑和编写代码。要进行编辑,请尝试选择一些代码,单击“编辑”,并描述应如何更改代码。要生成全新的代码,只需键入Ctrl K而不选择任何内容。
图表4:Cursor部分功能示例
资料来源:Cursor官网,国盛证券研究所
02
字节TRAE月活过百万,AI Coding为火山引擎大会要点6月11日,火山引擎 Force 原动力大会在北京举行,AI Coding为11日主论坛重要内容,AI编程产品TRAE也是6月12日开发者主论坛重要内容。
图表5:火山引擎Force原动力大会AI Coding相关论坛
资料来源:火山引擎,国盛证券研究所
截至目前,TRAE月活用户超过 100 万。在字节内部,超过 80% 的工程师在使用 TRAE 这样的产品辅助开发。
据字节火山引擎大会上字节跳动技术副总裁洪定坤的发言,AI Coding的意义包括:1)技术普惠,AI 让人人都是开发者
编程语言用简洁、优雅的语法和语义规则,定义清晰明确的指令,让计算机完成各种任务。代码是数字世界的基础生产力工具。AI 的出现,则前所未有地降低了大众掌握代码能力的门槛。
字节的一位研发同事,就在用 TRAE 教他们家 11 岁的小朋友学习编程。以下是小朋友最近完成的一个奥数竞赛题库网站:
图表6:奥数竞赛题库网站截图
资料来源:字节跳动,国盛证券研究所
2)提升研发效率
认真做好开发工具,能够大幅度地提升工作效率。目前在字节跳动内部,有超过 80% 的工程师,在使用 TRAE 这样的产品辅助开发。字节也有相当比例的代码是通过 AI 生成的。
3)追求智能上限
字节做大模型工作最重要的任务之一是追求智能上限。Coding 作为一种高度结构化、逻辑严密的任务,对模型理解复杂的语义结构、逻辑推理、算法设计和精确表达都有很高的要求,能很好地助力模型智能上限的探索。
未来展望:不只是 AI Coding,是 AI Development据洪定坤发言: Coding 只是软件开发的一个环节,并不是最终的目标。软件开发要写文档、做运维、做调试、发布、还要 Debug,做压力测试。一个典型的软件开发过程中,写代码可能大概占不到 40% 的工作,并且,越复杂的应用,代码工作的占比越少。在他的项目中,用到了 meego 管理需求,飞书多维表格记录问题、内部运维平台上线、trace 系统查 bug,还有代码提交和合并工具等等等等。其实在过程中来回切换上下文,都是非常复杂,也非常耗时间的。随着模型能力的进步,AI是有机会把这些工作统筹起来的。AI 成为调度者,让软件开发 all in one,更大幅度地降低开发的门槛,提升开发效率。
现在,TRAE 也在做一些类似的尝试,比如引入了 Agent 能力,用户可以依据场景选择不同的 Agent 进行工作,并且允许用户自定义 Agent。用户可以自定义工具,然后来去做这种上下文切换,把工作串起来。
图表7:TRAE 自定义 Agent 演示案例
资料来源:字节跳动,国盛证券研究所
04 Anthropic分享Multi-Agent研究系统架构 关于Multi-Agent架构的研究也是当前业界重要方向,2025年6月13日,Anthropic发文分享了他们如何构建多智能体研究系统。
多智能体系统的优点:研究工作涉及开放式问题,很难提前预测所需的步骤。人们在进行研究时,往往会根据研究过程中出现的线索,不断更新研究方法。这种不可预测性使得Agent特别适合研究任务。研究工作需要能够灵活地随着调查的展开而调整方向或探索间接联系。模型必须自主运行多个回合,并根据中间发现决定后续方向。线性、一次性的流程无法处理这些任务。搜索的本质在于压缩:从海量语料库中提炼洞察。子Agent通过与各自的上下文窗口并行运行,同时探索问题的不同方面,最终为主研究Agent提炼出最重要的标记,从而促进压缩。每个子Agent还提供关注点分离——不同的工具、提示和探索轨迹,从而减少路径依赖,并支持进行彻底、独立的调查。
一旦智能达到一定阈值,多智能体系统就成为提升性能的重要途径。例如,尽管在过去的十万年里,人类个体的智能水平不断提升,但在信息时代,由于集体智慧和协调能力的提升,人类社会的能力也呈指数级增长。即使是通用Agent,在单独运作时也会面临限制;而Agent群体可以完成更多任务。
Anthropic的内部评估表明,多智能体研究系统尤其擅长处理涉及同时追踪多个独立方向的广度优先查询。以claude opus 4为主Agent,并由claude sonnet 4号为子Agent的多智能体系统,在内部研究评估中的表现比单Agent的claude opus 高出90.2%。例如,当被要求识别信息技术类标普500指数成分股公司的所有董事会成员时,多智能体系统通过将其分解为子Agent的任务找到了正确答案,而单Agent系统则因缓慢的顺序搜索而无法找到答案。
多智能体系统之所以有效,主要在于它们能够帮助消耗足够的token来解决问题。BrowseComp评估(测试浏览Agent查找难以找到的信息的能力)中95%的性能差异可以由三个因素解释:token使用本身就解释了80%的差异,工具调用次数和模型选择是另外两个解释因素。最新的Claude模型在token使用方面发挥了巨大的效率倍增器作用,因为升级到Claude Sonnet 4比将Claude Sonnet 3.7上的token预算翻倍带来的性能提升更大。多智能体架构可以有效地扩展超出单个Agent极限任务的token使用量。
根据Anthropic的数据,Agent通常比聊天交互多消耗 4 倍令牌,而多智能体系统则比聊天多消耗 15 倍token。为了实现经济可行性,多智能体系统需要执行那些价值足够高的任务,以抵消其性能提升带来的成本。
一些要求所有Agent共享相同上下文或Agent之间存在诸多依赖关系的领域,目前并不适合多智能体系统。例如大多数编码任务中真正可并行化的任务比研究任务要少,而且LLM Agent目前还不擅长实时协调和委托其他Agent。多智能体系统在执行那些需要大量并行化、处理超过单一上下文窗口的信息以及与众多复杂工具交互的有价值任务方面表现出色。Anthropic研究架构概述: Anthropic的研究系统采用具有协调器-工作者模式的多智能体构,其中主Agent协调流程,同时委托给并行操作的专门子Agent。当用户提交查询时,主Agent会进行分析,制定策略,并生成子Agent来同时探索不同方面。子Agent充当智能过滤器,通过迭代使用搜索工具收集信息(在本例中是2025年的AI Agent公司信息),然后将公司列表返回给主Agent,以便其汇总最终答案。
图表8:多智能体架构的实际应用:用户查询流经主Agent,主Agent创建专门的子Agent并行搜索不同方面
资料来源:Anthrpoic官网,国盛证券研究所
传统使用检索增强生成(RAG) 的方法采用静态检索,它们会获取与输入查询最相似的一组词块,并使用这些词块生成响应。相比之下,Anthropic的架构采用多步骤搜索,可以动态地查找相关信息,适应新的发现,并分析结果以生成高质量的答案。
以下流程图展示了Anthropic多智能体研究系统的完整工作流程:当用户提交查询时,系统会创建一个 LeadResearcher 智能体,进入迭代研究流程。LeadResearcher 首先会仔细思考方法,并将其计划保存到内存中以持久化上下文。因为如果上下文窗口超过 200,000 个标记,它将被截断,因此保留计划至关重要。然后,它会创建专门的子Agent,并执行特定的研究任务。每个子Agent独立执行网页搜索,使用交叉思维评估工具结果,并将结果返回给 LeadResearcher。LeadResearcher 会综合这些结果,并决定是否需要进一步研究——如果需要,它可以创建其他子智能体或改进其策略。一旦收集到足够的信息,系统就会退出研究循环,并将所有结果传递给 CitationAgent,CitationAgent 会处理文档和研究报告,以确定引用的具体位置。这确保所有声明都正确归属于其来源。最终的研究结果(包括引文)将返回给用户。图表9:Anthropic多智能体研究系统的完整工作流程
资料来源:Anthrpoic官网,国盛证券研究所
尽管面临诸多挑战,多智能体系统已被证明在开放式研究任务中具有重要价值。用户表示,Claude 帮助他们找到了未曾考虑过的商业机会,引导他们应对复杂的医疗保健方案,解决棘手的技术错误,并通过发现他们独自一人无法发现的研究关联,节省了长达数天的工作时间。多智能体研究系统能够通过精心的工程设计、全面的测试、注重细节的提示和工具设计、强大的操作实践,以及对当前Agent功能有深入理解的研究、产品和工程团队之间的紧密合作,实现大规模可靠运行,这些系统正在改变人们解决复杂问题的方式。05 算力:寒武纪、海光信息、阿里巴巴、奥飞数据、协创数据、沪电股份、新易盛、中际旭创、胜宏股份、海南华铁、云赛智联、潍柴重机、科华数据、利通电子、大位科技、玉柴国际、亿田智能、有方科技、宏景科技、东阳光、弘信电子、圣阳股份、润建股份、深信服、神州数码、深桑达、品高股份、金山云、南都电源、云天励飞、优刻得、云从科技、浪潮信息、中科曙光、太极股份、首都在线、杭钢股份、数据港、南兴股份。
Agent:阿里巴巴、腾讯控股、金山办公、泛微网络、金蝶国际、鼎捷数智、拓尔思、朗新集团、用友网络、宇信科技、京北方、中科金财、麦迪科技、致远互联、金桥信息、汉得信息、软通动力、上海钢联、新致软件、同花顺、信雅达、萤石网络、润达医疗、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、光云科技、科大讯飞、万兴科技、海天瑞声、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、嘉和美康、新大陆、新开普等。
自动驾驶:江淮汽车、赛力斯、小鹏汽车、理想汽车、禾赛、地平线、世运电路等。
军工AI:能科科技、品高股份、普天科技、海格通信等。