标题:训练MoE提速70%!华为的三大优化策略
正文:
Scaling Law推动下,MoE成为各大模型厂商扩展能力的关键工具。然而,MoE在提升参数规模的同时,也带来了训练效率低下的问题,甚至一半以上的时间浪费在“等待”上。
华为推出了名为Adaptive Pipe & EDPB的优化方案,通过“上帝视角”解决MoE训练中的“交通拥堵”。MoE训练的主要挑战包括专家并行带来的计算和通信等待,以及负载不均导致的资源闲置。这些问题使训练系统像拥堵的城市交通,存在人车混行和车道分配僵化的现象。
华为的解决方案包括“行人地下通道”(通信掩盖技术)和“智能可变车道”(动态专家路由)。前者分离计算与通信,消除等待;后者动态调整专家分配,实现负载均衡。这套方案显著提升了资源利用率和通信效率。
华为还构建了DeployMind仿真平台,通过精准建模在1小时内模拟百万次训练场景,快速找到最优并行策略。针对Pangu Ultra MoE 718B模型,DeployMind确定了TP8/PP16/VPP2/EP32的并行方案,平衡计算、通信与内存需求。
通信掩盖框架Adaptive Pipe进一步优化。它通过层次化All-to-All通信和自适应细粒度前反向掩盖,实现98%以上的通信掩盖,极大减少计算等待时间。
此外,华为提出EDPB全局负载均衡,包含专家预测动态迁移(E)、数据重排Attention计算均衡(D)和虚拟流水线层间负载均衡(P)。EDPB实现了25.5%的吞吐提升。
最终,在Pangu Ultra MoE 718B模型训练中,Adaptive Pipe & EDPB使系统端到端训练吞吐提升了72.6%。华为的这些创新为大模型训练提供了重要优化路径。
技术报告地址:https://gitcode.com/ascend-tribe/ascend-training-system/tree/main/DistributedOptimization
.png)

-
2025-07-19 12:53:03
-
2025-07-19 12:51:53
-
2025-07-19 11:52:20