1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:训练MoE提速70%!华为的三大优化策略

正文:
Scaling Law推动下,MoE成为各大模型厂商扩展能力的关键工具。然而,MoE在提升参数规模的同时,也带来了训练效率低下的问题,甚至一半以上的时间浪费在“等待”上。

华为推出了名为Adaptive Pipe & EDPB的优化方案,通过“上帝视角”解决MoE训练中的“交通拥堵”。MoE训练的主要挑战包括专家并行带来的计算和通信等待,以及负载不均导致的资源闲置。这些问题使训练系统像拥堵的城市交通,存在人车混行和车道分配僵化的现象。

华为的解决方案包括“行人地下通道”(通信掩盖技术)和“智能可变车道”(动态专家路由)。前者分离计算与通信,消除等待;后者动态调整专家分配,实现负载均衡。这套方案显著提升了资源利用率和通信效率。

华为还构建了DeployMind仿真平台,通过精准建模在1小时内模拟百万次训练场景,快速找到最优并行策略。针对Pangu Ultra MoE 718B模型,DeployMind确定了TP8/PP16/VPP2/EP32的并行方案,平衡计算、通信与内存需求。

通信掩盖框架Adaptive Pipe进一步优化。它通过层次化All-to-All通信和自适应细粒度前反向掩盖,实现98%以上的通信掩盖,极大减少计算等待时间。

此外,华为提出EDPB全局负载均衡,包含专家预测动态迁移(E)、数据重排Attention计算均衡(D)和虚拟流水线层间负载均衡(P)。EDPB实现了25.5%的吞吐提升。

最终,在Pangu Ultra MoE 718B模型训练中,Adaptive Pipe & EDPB使系统端到端训练吞吐提升了72.6%。华为的这些创新为大模型训练提供了重要优化路径。

技术报告地址:https://gitcode.com/ascend-tribe/ascend-training-system/tree/main/DistributedOptimization

原文链接
本文链接:https://kx.umi6.com/article/19625.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
2024-06-07 18:18:13
对话蜜度CTO刘益东:价格战、MoE......中国AI大模型下一步“卷”什么?
2024-07-05 20:47:52
DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法
2025-03-08 11:43:54
大模型的中场战事:CoE or MoE ?
2024-08-03 11:48:38
推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025
2025-02-12 12:26:20
DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定
2025-02-25 11:49:28
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
2025-05-30 16:54:34
豆包提出全新稀疏模型架构 UltraMem,推理成本较 MoE 最高可降 83%
2025-02-12 13:32:45
“全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE
2024-06-03 18:55:11
昆仑万维开源2千亿稀疏大模型天工MoE,全球首创用4090推理
2024-06-06 18:12:00
MoE那么大,几段代码就能稳稳推理 | 开源
2025-07-02 18:09:04
榨干每一块GPU,DeepSeek开源第二天,送上降本增效神器
2025-02-25 16:02:59
腾讯放大招,超Meta!史上参数最大,开源专家混合模型
2024-11-07 10:59:44
24小时热文
更多
扫一扫体验小程序