蚂蚁国产GPU训练大模型细节曝光!Ling模型研发负责人回应
近日,蚂蚁一篇技术论文引发关注。论文中显示,他们推出的两款MoE大模型能在国产GPU上完成与英伟达同效的训练,计算成本甚至低于DeepSeek。对此,蚂蚁Ling模型研发负责人张志强在知乎上作出回应,分享了他们在大模型训练中的经验和教训。
张志强发布的长文《关于我们抠 FLOPS 的一些点滴》,详细介绍了他们在训练正确性对齐、Router TP(Tensor Parallelism)bug修复、训练稳定性等方面的努力。他还澄清了外界对于成本计算的误解,强调无论是在GPU还是国产加速卡上,LLM的训练成本优化都有无限潜力。
在正确性对齐方面,他们确保不同平台的训练结果一致,包括算子精度、框架一致性及loss差异控制。此外,团队解决了MindSpeed框架中router部分的收敛问题,修复了反向传播中的梯度重复问题。在NormHead迁移上,他们优化了多D并行下的实现,以提高国产加速卡上的计算效率。
针对国产加速卡稳定性不足的问题,团队设计了loss和grad尖刺处理机制,有效提升了训练的鲁棒性。成本计算上,他们采用学术界的通行方法,表明国产加速卡的训练成本与GPU相当甚至更低,同时保证loss收敛一致。
Ling模型的发布仅是第一步,未来团队将继续优化,包括探索FP8精度训练及强化学习等前沿技术。张志强表示,AGI必将来临,他们致力于让其惠及大众,期待未来的持续关注。
原文链接
本文链接:https://kx.umi6.com/article/16240.html
转载请注明文章出处
相关推荐
.png)
换一换
盖茨谈当前 AI 市场:准入门槛低吸引海量资本涌入,狂热程度远超互联网泡沫
2024-07-05 15:55:30
谷歌&MIT何恺明团队:视觉大模型像LLM一样高效扩展
2024-10-20 20:01:11
大模型降价潮再起!字节后发制人 阿里加码C端
2025-01-01 22:04:08
461 文章
65711 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21