【国盛计算机AI旗手】微软开源 DeepSpeed-Chat，加速应用百花齐放

财富密钥 / 2023-04-14 12:35 发布

【国盛计算机AI旗手】微软开源 DeepSpeed-Chat，加速应用百花齐放

DeepSpeed-Chat可以简易地进行类ChatGPT模型的训练和推理：用一个脚本，能够采用预先训练的Huggingface模型，使用 DeepSpeed-RLHF系统运行完成 InstructGPT 训练的所有三个步骤（1.监督微调2.奖励模型微调和3.人类反馈强化学习（RLHF））并生成自己的类 ChatGPT 的模型。

DeepSpeed-HE是DeepSpeed-RLHF系统的引擎，具备三大优势：
1）效率比现有其他系统快15倍以上。在Azure Cloud上以低于13美元和9美元的价格在30小时内训练OPT-18B，在300小时内训练OPT-600B。
2）具备出色的可扩展性：支持数千亿参数的模型，可以在一天内训练一个庞大的 175B 模型。
3）让训练硬件成本亲民：只需一个 GPU，就支持超过 13 亿个参数的训练模型。

DeepSpeed-Chat的开源赋能整个AI行业提升效率和降低成本，加快应用落地。有望帮助大模型厂商加快训练，并能让中小厂商在做细分领域应用时，基于自己的场景和数据低成本快速实现自己的小型类ChatGPT模型，或在微调大模型时降低成本。

影响：1）加速应用百花齐放，降低训练门槛。如办公、多模态GPT、智能助理、金融、医疗等场景训练中FINETUNE难度与便捷性比以前好很多。2）中期加大算力需求：我们一直强调，训练端算力需求极其有限（DEEP SPEED CHAT缩减的RLHF和FINETUNE环节更是远小于预训练），而应用爆发才是指数型增长。DEEP SPEED-chat加速各类应用落地，中期算力需求有望迎来大爆发。这和市场目前的误解有明显差异。

赞(2) | 评论 2023-04-14 12:35 来自网站举报

取消发布

推荐关注更多

【国盛计算机AI旗手】微软开源 DeepSpeed-Chat，加速应用百花齐放