1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

蚂蚁国产GPU训练大模型细节曝光!Ling模型研发负责人回应

近日,蚂蚁一篇技术论文引发关注。论文中显示,他们推出的两款MoE大模型能在国产GPU上完成与英伟达同效的训练,计算成本甚至低于DeepSeek。对此,蚂蚁Ling模型研发负责人张志强在知乎上作出回应,分享了他们在大模型训练中的经验和教训。

张志强发布的长文《关于我们抠 FLOPS 的一些点滴》,详细介绍了他们在训练正确性对齐、Router TP(Tensor Parallelism)bug修复、训练稳定性等方面的努力。他还澄清了外界对于成本计算的误解,强调无论是在GPU还是国产加速卡上,LLM的训练成本优化都有无限潜力。

在正确性对齐方面,他们确保不同平台的训练结果一致,包括算子精度、框架一致性及loss差异控制。此外,团队解决了MindSpeed框架中router部分的收敛问题,修复了反向传播中的梯度重复问题。在NormHead迁移上,他们优化了多D并行下的实现,以提高国产加速卡上的计算效率。

针对国产加速卡稳定性不足的问题,团队设计了loss和grad尖刺处理机制,有效提升了训练的鲁棒性。成本计算上,他们采用学术界的通行方法,表明国产加速卡的训练成本与GPU相当甚至更低,同时保证loss收敛一致。

Ling模型的发布仅是第一步,未来团队将继续优化,包括探索FP8精度训练及强化学习等前沿技术。张志强表示,AGI必将来临,他们致力于让其惠及大众,期待未来的持续关注。

原文链接
本文链接:https://kx.umi6.com/article/16240.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
上海累计82款大模型通过备案
2025-07-10 11:28:53
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025-08-17 12:35:45
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
一场「狼人杀」,考倒了一堆大模型
2025-08-28 14:28:50
阿里、智谱等扎堆发布大模型 编程、金融等方向成焦点
2025-07-30 20:55:52
字节跳动、阿里AI“大将”出走
2025-08-25 22:35:04
WAIC 2025倒计时30天!40+大模型、50+AI终端、60+智能机器人即将重磅登场
2025-06-26 17:24:23
2025WAIC:大厂回归,医疗AI爆火出圈
2025-07-30 15:47:42
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
2025-07-01 08:51:07
「今年业务是去年5倍以上」,工业智能体掀热潮
2025-08-29 12:38:30
国产GPU,集体迈向IPO
2025-07-24 12:05:58
24小时热文
更多
扫一扫体验小程序