推广 热搜： 京东联通 iphone11 摄像头 iPhone 企业存储 XSKY 京东智能采购网络安全自动驾驶

首页 > 资讯 > 云计算

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

日期：2021-11-11 来源：量子位作者：itcg 浏览：518 我要评论

导读：本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处�

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

100000亿！

（没错，是10万亿）

而且还是用512张GPU，训练了10天搞出来的！

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

这就是达摩院最新推出的超大规模通用性人工智能大模型，M6-10T。

它在电商、制造业、文学艺术、科学研究等领域都有着多模态、多任务的能力，在各自现实场景的下游任务中也频频出现。

而且还能做到即开即用，你今年的双十一背后就有M6-10T的身影。

少量资源快速训练大模型

不过剁手节的事可以先放一边，问题关键是：M6-10T到底是怎么使用少量资源完成对极限规模模型的训练的？

要知道，之前微软的DeepSpeed MoE模型，也是使用了512张A100才完成了3.5万亿参数的训练。

而自家在5个月前推出的万亿级参数的M6，则是用480块GPU训练的。

所以，512张GPU怎么就放下了10万亿参数？

这就要提到达摩院自研的分布式框架Whale。

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

基于这一框架，M6模型可以使用粒度可控的CPU offload方法，灵活地选择offload的模型层。

也就是说，可以不用将所有的权重offload到CPU memory中，而选择保留部分权重在GPU memory上进行计算，以进一步地提高GPU利用率。

放下了参数，下一步就是提高训练效率。

M6-10T模型采用了一种叫做共享解除（Pseudo-to-Real）的新的训练策略：

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

这一策略分为两个阶段。

第一阶段，利用跨层参数共享机制快速构建并训练小模型Pseudo Giant。

参数少得多的Pseudo Giant不受内存的限制，因此可以用大批量训练来加速。

再配合上专家拆分和合并的机制，最终只需要使用256张GPU即可快速训练一个Pseudo Giant。

第二阶段则解除共享参数的联系，得到新的Real Giant模型。

“共享”阶段训练好的模型层的参数会为Real Giant的每一层提供初始化，大模型即可在训练好的小模型的基础上继续优化。

在下游评估中可以看到，从头开始训练Real Giant模型非常耗时，而Pseudo Giant训练的收敛速度比Real Giant训练有5倍左右的优势：

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

△在48个NVIDIA V100 GPU设备上训练

这一机制不仅能够使M6-10T在样本量的维度上具有更快的收敛速度，也能将模型的训练速度提升7倍以上。

而相对于之前的M6-MoE和M6-T，采用了新的训练策略的M60-10T迷惑度（perplexity）更低，模型更优越：

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

可以说，之前使用480GPU的万亿参数模型M6，如果采用现在的方法，那就只需要64张GPU就能完成训练。

双十一背后的模型

而除了算法层面的价值，M6-10T一经推出就能够投入使用。

比如说即将来临的双十一中，你或许就能发现这些AI设计款的衣服上架。

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

△基于M6设计生成的服装款式

这就是大模型带来的创造力。

在结合了StyleGAN后，M6能够在少样本情况下自动生成图像，且保持良好的细节质量和可编辑性。

而且与传统的设计款式图不同，M6生成的还是更接近实物的照片效果。

在手机淘宝和支付宝中，也会有基于M6智能生成的内容文案：

512张GPU炼出10万亿参数巨模型！这个模型今年双十一已经用上了

同时，大模型的多模态特征提取能力，也能进行商品属性标签补充，用于进行认知召回。

可以说，阿里巴巴内部超过40个业务团队背后，都有着基于个版本的M6模型形成的服务化平台的支撑。

而除了电商领域，还有金融、工业、传统科学等诸多应用方向。

现在，M6服务化平台以及成为了前业界覆盖最广泛的大模型生态的服务化平台。

那么未来是继续追求更大量级的模型，进行参数规模的迭代吗？

阿里达摩院M6的科研团队表示：

伴随着参数规模的扩大，当前的预训练模型在语言模型建模之类的任务上取得了不错的进展，
但对知识的理解还比较浅薄。

因此，如何将大模型有效迁移到多种类型的下游任务上，让大模型真正地理解并运用知识，这将是研究人员会进一步探索的问题。

论文：
https://arxiv.org/abs/2110.03888

模型人工智能 GPU

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

西部数据推出 26TB 3.5 英寸硬盘，为创意专业人士和内容创作者增加容量	麒麟9006C：华为5纳米家族的新成员
中国大陆显示器线上市场：2023年11月销售火爆，创下新高	高通骁龙X Elite芯片挑战苹果M系列：硬件性能对决

相关资讯

• 宜人智科“智语大模型”正式通过备案开启AI科	• 一文详解“业采融合”OEC价值模型
• 《业采融合发展白皮书》正式发布，行业首提“业	• AI大模型和智能算力服务助力，2024上半年中国公
• 华为徐直军解析全面智能化之路：AI与大模型的融	• 微软发布最新研究预览版模型：VASA-1引领人工智
• Meta发布最新一代AI助手与大语言模型 Llama 3，	• 京东采购大模型产业应用实践成果发布助力金融
• LLaMA 3来了！Meta新一代大模型将掀起AI新革命	• 参数破3000亿却性能平庸？大模型的新革命来了！