盘古 Ultra MoE - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

全流程昇腾平台训练，华为推出准万亿参数盘古 Ultra MoE 模型

5月30日，华为推出参数规模达7180亿的盘古Ultra MoE模型，这是首个全流程在昇腾AI计算平台上训练的准万亿MoE模型。盘古团队采用Depth-Scaled Sandwich-Norm稳定架构及TinyInit小初始化方法，在昇腾平台上完成了超过18TB数据的长期稳定训练。华为首次在昇腾CloudMatrix 384超节点上实现大稀疏比MoE强化学习后训练框架，推动RL后训练进入超节点集群时代。基于5月初发布的预训练系统加速技术，华为团队通过多项技术创新，包括自适应流水掩盖策略、算子执行序优化、Host-Bound降低及EP通信掩盖提升、内存优化策略开发、数据重排实现DP间Attention负载均衡及昇腾亲和算子优化，使万卡集群预训练MFU从30%提升至41%。

原文链接