1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:每2秒破解一道高数难题!华为揭秘准万亿MoE昇腾训练系统全流程

正文:
现在,请大家数一下“1”、“2”。

短短2秒,一个准万亿MoE大模型已经学会解答一道高等数学难题!

更令人惊叹的是,这套系统全流程基于国产技术,不依赖GPU。

这就是华为通过“昇腾+Pangu Ultra MoE”实现的成果——国产算力与模型全流程自主可控,且性能领先行业。

具体表现如何?看数据:
- 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41%。
- 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s。

华为首次公开了背后的秘密武器,即在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习后训练框架的关键技术。

这套全流程解决方案分为三招:

第一招:提升训练集群利用率
华为团队通过智能并行优化、通信去冗余、负载均衡等技术,显著提高了集群效率。例如,他们开发了建模仿真框架,自动选择最优并行配置:16路流水线并行、8路张量并行、32路专家并行、2路虚拟流水线并行。

同时,华为创新设计了分层通信机制,将专家并行通信开销降至接近零(<2%)。此外,EDP全局负载均衡策略通过动态调节和注意力数据重排,大幅改善了负载分布。

第二招:释放昇腾单节点算力
华为优化了算子性能,通过FlashAttention、MatMul等算子的优化,显著提升了训练算子效率。同时,他们解决了Host资源瓶颈,将微批处理规模提升至原来的两倍,并通过Selective R/S内存优化,节省70%的激活值内存。

第三招:高性能可扩展RL后训练技术
华为提出RL Fusion训推共卡技术,支持训练推理共卡部署,提高资源利用率。他们还设计了准异步机制StaleSync和分布式数据队列DistQueue,提升了后训练阶段的吞吐量。

最终,Pangu Ultra MoE模型拥有7180亿参数,支持每超节点35K Tokens/s的高吞吐能力,相当于每2秒解决一道高数难题。

更多详情请查阅完整技术报告:
https://gitcode.com/ascend-tribe/ascend-training-system/blob/main/Overview/%E6%98%87%E8%85%BE%E8%B6%85%E5%A4%A7%E8%A7%84%E6%A8%A1Pangu%20MoE%E6%A8%A1%E5%9E%8B%E5%85%A8%E6%B5%81%E7%A8%8B%E9%AB%98%E6%95%88%E8%AE%AD%E7%BB%83%E5%AE%9E%E8%B7%B5.pdf

技术博客地址:
https://gitcode.com/ascend-tribe/ascend-training-system/blob/main/Overview/ascend-training-system-overview.md

原文链接
本文链接:https://kx.umi6.com/article/19517.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
如何看待这波「人形机器人」行情?
2024-12-24 10:28:42
华为启动全球教育医疗伙伴联盟,倡议推动 AI 诊疗商业模式落地
2025-07-10 23:28:33
华为郭振兴:2025年是AI重构企业全业务启动之年
2025-03-22 18:31:29
24小时热文
更多
扫一扫体验小程序