标题:每2秒破解一道高数难题!华为揭秘准万亿MoE昇腾训练系统全流程
正文:
现在,请大家数一下“1”、“2”。
短短2秒,一个准万亿MoE大模型已经学会解答一道高等数学难题!
更令人惊叹的是,这套系统全流程基于国产技术,不依赖GPU。
这就是华为通过“昇腾+Pangu Ultra MoE”实现的成果——国产算力与模型全流程自主可控,且性能领先行业。
具体表现如何?看数据:
- 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41%。
- 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s。
华为首次公开了背后的秘密武器,即在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习后训练框架的关键技术。
这套全流程解决方案分为三招:
第一招:提升训练集群利用率
华为团队通过智能并行优化、通信去冗余、负载均衡等技术,显著提高了集群效率。例如,他们开发了建模仿真框架,自动选择最优并行配置:16路流水线并行、8路张量并行、32路专家并行、2路虚拟流水线并行。
同时,华为创新设计了分层通信机制,将专家并行通信开销降至接近零(<2%)。此外,EDP全局负载均衡策略通过动态调节和注意力数据重排,大幅改善了负载分布。
第二招:释放昇腾单节点算力
华为优化了算子性能,通过FlashAttention、MatMul等算子的优化,显著提升了训练算子效率。同时,他们解决了Host资源瓶颈,将微批处理规模提升至原来的两倍,并通过Selective R/S内存优化,节省70%的激活值内存。
第三招:高性能可扩展RL后训练技术
华为提出RL Fusion训推共卡技术,支持训练推理共卡部署,提高资源利用率。他们还设计了准异步机制StaleSync和分布式数据队列DistQueue,提升了后训练阶段的吞吐量。
最终,Pangu Ultra MoE模型拥有7180亿参数,支持每超节点35K Tokens/s的高吞吐能力,相当于每2秒解决一道高数难题。
更多详情请查阅完整技术报告:
https://gitcode.com/ascend-tribe/ascend-training-system/blob/main/Overview/%E6%98%87%E8%85%BE%E8%B6%85%E5%A4%A7%E8%A7%84%E6%A8%A1Pangu%20MoE%E6%A8%A1%E5%9E%8B%E5%85%A8%E6%B5%81%E7%A8%8B%E9%AB%98%E6%95%88%E8%AE%AD%E7%BB%83%E5%AE%9E%E8%B7%B5.pdf
技术博客地址:
https://gitcode.com/ascend-tribe/ascend-training-system/blob/main/Overview/ascend-training-system-overview.md
.png)

-
2025-07-20 23:09:27
-
2025-07-20 22:09:17
-
2025-07-20 21:10:03