训练MoE足足提速70%！华为只用了3招

2025-06-03 15:58:16

智慧轨迹

发布在

科普

阅读：352

标题：训练MoE提速70%！华为的三大优化策略

正文：
Scaling Law推动下，MoE成为各大模型厂商扩展能力的关键工具。然而，MoE在提升参数规模的同时，也带来了训练效率低下的问题，甚至一半以上的时间浪费在“等待”上。

华为推出了名为Adaptive Pipe & EDPB的优化方案，通过“上帝视角”解决MoE训练中的“交通拥堵”。MoE训练的主要挑战包括专家并行带来的计算和通信等待，以及负载不均导致的资源闲置。这些问题使训练系统像拥堵的城市交通，存在人车混行和车道分配僵化的现象。

华为的解决方案包括“行人地下通道”（通信掩盖技术）和“智能可变车道”（动态专家路由）。前者分离计算与通信，消除等待；后者动态调整专家分配，实现负载均衡。这套方案显著提升了资源利用率和通信效率。

华为还构建了DeployMind仿真平台，通过精准建模在1小时内模拟百万次训练场景，快速找到最优并行策略。针对Pangu Ultra MoE 718B模型，DeployMind确定了TP8/PP16/VPP2/EP32的并行方案，平衡计算、通信与内存需求。

通信掩盖框架Adaptive Pipe进一步优化。它通过层次化All-to-All通信和自适应细粒度前反向掩盖，实现98%以上的通信掩盖，极大减少计算等待时间。

此外，华为提出EDPB全局负载均衡，包含专家预测动态迁移（E）、数据重排Attention计算均衡（D）和虚拟流水线层间负载均衡（P）。EDPB实现了25.5%的吞吐提升。

最终，在Pangu Ultra MoE 718B模型训练中，Adaptive Pipe & EDPB使系统端到端训练吞吐提升了72.6%。华为的这些创新为大模型训练提供了重要优化路径。

技术报告地址：https://gitcode.com/ascend-tribe/ascend-training-system/tree/main/DistributedOptimization

原文链接

本文链接：https://kx.umi6.com/article/19625.html

转载请注明文章出处

MoE

华为优化方案

训练吞吐提升

分享至

打开微信扫一扫

内容投诉

生成图片

智慧轨迹

495 文章

180790 浏览

24小时热文