1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:训练MoE提速70%!华为的三大优化策略

正文:
Scaling Law推动下,MoE成为各大模型厂商扩展能力的关键工具。然而,MoE在提升参数规模的同时,也带来了训练效率低下的问题,甚至一半以上的时间浪费在“等待”上。

华为推出了名为Adaptive Pipe & EDPB的优化方案,通过“上帝视角”解决MoE训练中的“交通拥堵”。MoE训练的主要挑战包括专家并行带来的计算和通信等待,以及负载不均导致的资源闲置。这些问题使训练系统像拥堵的城市交通,存在人车混行和车道分配僵化的现象。

华为的解决方案包括“行人地下通道”(通信掩盖技术)和“智能可变车道”(动态专家路由)。前者分离计算与通信,消除等待;后者动态调整专家分配,实现负载均衡。这套方案显著提升了资源利用率和通信效率。

华为还构建了DeployMind仿真平台,通过精准建模在1小时内模拟百万次训练场景,快速找到最优并行策略。针对Pangu Ultra MoE 718B模型,DeployMind确定了TP8/PP16/VPP2/EP32的并行方案,平衡计算、通信与内存需求。

通信掩盖框架Adaptive Pipe进一步优化。它通过层次化All-to-All通信和自适应细粒度前反向掩盖,实现98%以上的通信掩盖,极大减少计算等待时间。

此外,华为提出EDPB全局负载均衡,包含专家预测动态迁移(E)、数据重排Attention计算均衡(D)和虚拟流水线层间负载均衡(P)。EDPB实现了25.5%的吞吐提升。

最终,在Pangu Ultra MoE 718B模型训练中,Adaptive Pipe & EDPB使系统端到端训练吞吐提升了72.6%。华为的这些创新为大模型训练提供了重要优化路径。

技术报告地址:https://gitcode.com/ascend-tribe/ascend-training-system/tree/main/DistributedOptimization

原文链接
本文链接:https://kx.umi6.com/article/19625.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
2025-05-30 16:54:34
推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025
2025-02-12 12:26:20
腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型
2024-11-05 17:04:28
24小时热文
更多
扫一扫体验小程序