蚂蚁自研2900亿大模型用国产AI芯片训练，计算成本508万元低于DeepSeek

2025-03-24 12:55:38

AI创想团

发布在

科普

阅读：466

蚂蚁集团自主研发了名为Ling-Lite和Ling-Plus的百灵系列开源MoE模型，参数规模分别为168亿和2900亿。相比GPT-4.5的1.8万亿参数和DeepSeek-R1的6710亿参数，蚂蚁团队通过国产AI芯片和创新技术显著降低了训练成本，仅需508万元人民币。这一成果已发表于Arxiv平台，标志着蚂蚁加入全球AI科技竞争。

蚂蚁Ling团队在模型训练中采用了异构计算架构，利用国产AI芯片完成训练，而非完全依赖英伟达H800等高端GPU。团队通过构建9万亿token语料库、优化MoE架构及训练策略，结合DLRover分布式框架、XPUTimer调试工具和EDiT弹性训练技术，大幅提升了训练效率。例如，使用低规格硬件将1万亿token预训练成本降至508万元，较高性能硬件节约近20%。

实验结果显示，Ling-Lite在英语基准测试中优于Meta的Llama 3.1-8B，Ling-Plus则在中文测试中超越DeepSeek系列模型。此外，Ling-Plus在安全性和错误拒绝率方面表现均衡，优于其他模型。蚂蚁计划开源这两款模型，并将其应用于医疗、金融等领域。

尽管训练过程充满挑战，蚂蚁团队克服了稳定性等问题，展现了中国在AI领域的创新能力。彭博分析师指出，这项成果表明中国正逐步实现AI技术的自主化，同时规避英伟达芯片出口限制带来的影响。

原文链接

本文链接：https://kx.umi6.com/article/16007.html

转载请注明文章出处

AI大模型