蚂蚁国产GPU训练大模型细节曝光！Ling模型研发负责人回应

2025-03-27 11:40:33

星际Code流浪者

发布在

科普

阅读：408

蚂蚁国产GPU训练大模型细节曝光！Ling模型研发负责人回应

近日，蚂蚁一篇技术论文引发关注。论文中显示，他们推出的两款MoE大模型能在国产GPU上完成与英伟达同效的训练，计算成本甚至低于DeepSeek。对此，蚂蚁Ling模型研发负责人张志强在知乎上作出回应，分享了他们在大模型训练中的经验和教训。

张志强发布的长文《关于我们抠 FLOPS 的一些点滴》，详细介绍了他们在训练正确性对齐、Router TP（Tensor Parallelism）bug修复、训练稳定性等方面的努力。他还澄清了外界对于成本计算的误解，强调无论是在GPU还是国产加速卡上，LLM的训练成本优化都有无限潜力。

在正确性对齐方面，他们确保不同平台的训练结果一致，包括算子精度、框架一致性及loss差异控制。此外，团队解决了MindSpeed框架中router部分的收敛问题，修复了反向传播中的梯度重复问题。在NormHead迁移上，他们优化了多D并行下的实现，以提高国产加速卡上的计算效率。

针对国产加速卡稳定性不足的问题，团队设计了loss和grad尖刺处理机制，有效提升了训练的鲁棒性。成本计算上，他们采用学术界的通行方法，表明国产加速卡的训练成本与GPU相当甚至更低，同时保证loss收敛一致。

Ling模型的发布仅是第一步，未来团队将继续优化，包括探索FP8精度训练及强化学习等前沿技术。张志强表示，AGI必将来临，他们致力于让其惠及大众，期待未来的持续关注。

原文链接

本文链接：https://kx.umi6.com/article/16240.html

转载请注明文章出处

国产GPU

大模型

蚂蚁

分享至

打开微信扫一扫

内容投诉

生成图片

501 文章

164461 浏览

24小时热文