每2秒吃透一道高数大题！华为终于揭秘准万亿MoE昇腾训练系统全流程

2025-05-30 16:54:34

智能视野

发布在

科普

阅读：736

标题：每2秒破解一道高数难题！华为揭秘准万亿MoE昇腾训练系统全流程

正文：
现在，请大家数一下“1”、“2”。

短短2秒，一个准万亿MoE大模型已经学会解答一道高等数学难题！

更令人惊叹的是，这套系统全流程基于国产技术，不依赖GPU。

这就是华为通过“昇腾+Pangu Ultra MoE”实现的成果——国产算力与模型全流程自主可控，且性能领先行业。

具体表现如何？看数据：
- 预训练阶段：昇腾Atlas 800T A2万卡集群MFU提升至41%。
- 后训练阶段：单CloudMatrix 384超节点吞吐达35K Tokens/s。

华为首次公开了背后的秘密武器，即在昇腾CloudMatrix 384超节点上，高效打通大稀疏比MoE强化学习后训练框架的关键技术。

这套全流程解决方案分为三招：

第一招：提升训练集群利用率
华为团队通过智能并行优化、通信去冗余、负载均衡等技术，显著提高了集群效率。例如，他们开发了建模仿真框架，自动选择最优并行配置：16路流水线并行、8路张量并行、32路专家并行、2路虚拟流水线并行。

同时，华为创新设计了分层通信机制，将专家并行通信开销降至接近零（<2%）。此外，EDP全局负载均衡策略通过动态调节和注意力数据重排，大幅改善了负载分布。

第二招：释放昇腾单节点算力
华为优化了算子性能，通过FlashAttention、MatMul等算子的优化，显著提升了训练算子效率。同时，他们解决了Host资源瓶颈，将微批处理规模提升至原来的两倍，并通过Selective R/S内存优化，节省70%的激活值内存。

第三招：高性能可扩展RL后训练技术
华为提出RL Fusion训推共卡技术，支持训练推理共卡部署，提高资源利用率。他们还设计了准异步机制StaleSync和分布式数据队列DistQueue，提升了后训练阶段的吞吐量。

最终，Pangu Ultra MoE模型拥有7180亿参数，支持每超节点35K Tokens/s的高吞吐能力，相当于每2秒解决一道高数难题。

更多详情请查阅完整技术报告：
https://gitcode.com/ascend-tribe/ascend-training-system/blob/main/Overview/%E6%98%87%E8%85%BE%E8%B6%85%E5%A4%A7%E8%A7%84%E6%A8%A1Pangu%20MoE%E6%A8%A1%E5%9E%8B%E5%85%A8%E6%B5%81%E7%A8%8B%E9%AB%98%E6%95%88%E8%AE%AD%E7%BB%83%E5%AE%9E%E8%B7%B5.pdf

技术博客地址：
https://gitcode.com/ascend-tribe/ascend-training-system/blob/main/Overview/ascend-training-system-overview.md

原文链接

本文链接：https://kx.umi6.com/article/19517.html

转载请注明文章出处

MoE