5月30日,华为推出参数规模达7180亿的盘古Ultra MoE模型,这是首个全流程在昇腾AI计算平台上训练的准万亿MoE模型。盘古团队采用Depth-Scaled Sandwich-Norm稳定架构及TinyInit小初始化方法,在昇腾平台上完成了超过18TB数据的长期稳定训练。华为首次在昇腾CloudMatrix 384超节点上实现大稀疏比MoE强化学习后训练框架,推动RL后训练进入超节点集群时代。基于5月初发布的预训练系统加速技术,华为团队通过多项技术创新,包括自适应流水掩盖策略、算子执行序优化、Host-Bound降低及EP通信掩盖提升、内存优化策略开发、数据重排实现DP间Attention负载均衡及昇腾亲和算子优化,使万卡集群预训练MFU从30%提升至41%。
原文链接
本文链接:https://kx.umi6.com/article/19524.html
转载请注明文章出处
相关推荐
.png)
换一换
华为与青岛城运控股集团签署深化合作协议
2025-04-10 20:09:03
终止与华为合作?科大讯飞称消息不实,华为则无回应
2024-08-15 15:12:36
华为发布准万亿模型盘古Ultra MoE
2025-05-30 17:00:15
449 文章
68986 浏览
24小时热文
更多

-
2025-07-19 14:57:21
-
2025-07-19 14:56:08
-
2025-07-19 14:55:01