训练成本 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

中国大模型首登Nature封面！DeepSeek首次披露：R1训练只花200万

2025年9月，中国AI公司DeepSeek凭借其大模型R1首次登上《Nature》封面，成为首家获此殊荣的中国公司，创始人梁文锋为通讯作者。论文首次披露R1训练成本仅约29.4万美元（约合人民币208万），使用512张H800 GPU完成训练，参数规模达660B。评审专家称R1是首个经历同行评审的大型语言模型，影响力覆盖全球研究领域。截至发文，其谷歌学术引用达3596次，Hugging Face下载量超1090万次。DeepSeek还公开了数据来源、安全性评估等技术细节，并开源模型权重，推动社区发展。此次突破标志着中国AI研究迈向新高度，引发行业关注。

原文链接

心智奇点

09-18 13:51:50

DeepSeek

Nature封面

R1训练成本

分享至

打开微信扫一扫

内容投诉

生成图片

MiniMax发布全球首个混合架构开源模型M1 称强化训练成本仅53万美金

6月17日凌晨，上海AI独角兽MiniMax发布全球首个开源大规模混合架构推理模型M1。M1支持100万Token上下文窗口，推理输出可达8万Token，且强化训练成本仅53万美金，远低于行业平均水平。该模型定价分三个档位，前两档低于DeepSeek-R1，128k-1M Token档为行业空白。MiniMax称M1所需算力仅为DeepSeek R1的25%-30%，其新算法CISPO使强化学习阶段仅用512块H800 GPU，三周完成训练。此举标志着MiniMax加入大模型竞争，同时开启“开源周”，未来四天将发布更多技术更新。目前，DeepSeek R2的发布时间仍未确定，对行业格局带来不确定性。

原文链接

蝶舞CyberSwirl

06-17 19:29:56

MiniMax-M1

开源模型

强化训练成本

分享至

打开微信扫一扫

内容投诉

生成图片

蚂蚁集团回应新模型训练成本降低：基于不同芯片持续调优，会逐步开源

3月24日，蚂蚁集团就“百灵”大模型训练成本问题作出回应，表示已针对不同芯片持续优化，降低成本并计划逐步开源。此前，蚂蚁Ling团队在Arxiv平台发布论文，推出百灵轻量版（168亿参数）和增强版（2900亿参数）两款MoE大语言模型，采用创新方法实现在低性能硬件上的高效训练。实验显示，该3000亿参数模型在国产GPU设备上的表现与使用英伟达芯片的同类模型相当，显著降低了训练成本。

原文链接

智能视野

03-24 17:06:03

大模型

蚂蚁集团

训练成本

分享至

打开微信扫一扫

内容投诉

生成图片

字节对MoE模型训练成本再砍一刀成本可节省40%

财联社3月10日报道，字节跳动大模型团队宣布开源一种针对MoE架构的优化技术，可提升训练效率1.7倍，节省成本40%。该技术已在字节跳动的万卡集群中应用，累计节省数百万GPU小时训练算力。

原文链接

AI思维矩阵

03-10 17:52:30

MoE模型

字节跳动

训练成本

分享至

打开微信扫一扫

内容投诉

生成图片

Anthropic 新旗舰 AI 模型 Claude 3.7 Sonnet 训练成本曝光：仅数千万美元

2月26日，据沃顿商学院教授Ethan Mollick透露，人工智能公司Anthropic的最新旗舰模型Claude 3.7 Sonnet的训练成本仅为数千万美元。该模型规模不及10^26 FLOP级别。此前，Anthropic CEO达里奥・阿莫迪提到，Claude 3.5 Sonnet的训练成本同样为数千万美元。相比之下，GPT-4的开发成本超过1亿美元，Gemini Ultra的训练费用接近2亿美元。这意味着发布先进AI模型的成本正在降低。目前，Anthropic尚未对此作出回应。

原文链接

AI幻想空间站

02-26 15:36:38

Anthropic

Claude 3.7 Sonnet

训练成本

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek们的成本，是怎么计算的？

昨天，马斯克携“地球上最聪明的AI”Gork 3亮相，其推理能力超越目前所有已知模型。DeepSeek R1接入微信并被广泛测试，助推其估值飙升至千亿美金。DeepSeek以557.6万美元的GPU成本训练出与OpenAI o1能力相当的模型，引发业界关注。DeepSeek不仅在训练成本上表现出色，还在模型结构、预训练和后训练方面进行了优化，显著提高了效率。此外，DeepSeek的推理大模型和通用大模型各有优劣，适用于不同场景。未来，随着算法进步，大模型训练成本有望继续降低。

原文链接

数字墨迹

02-19 10:43:25

DeepSeek

大模型

训练成本

分享至

打开微信扫一扫

内容投诉

生成图片

马斯克在直播中首次披露Grok 3的训练成本：20万块英伟达GPU

财联社2月18日电，马斯克在直播中首次透露，Grok 3的训练成本高达20万块英伟达GPU。训练工作在xAI公司的数据中心内完成。

原文链接

数据炼金师

02-18 15:36:11

Grok 3

英伟达GPU

训练成本

分享至

打开微信扫一扫

内容投诉

生成图片

成本不到150元！李飞飞等26分钟训出个推理模型，媲美o1和R1，秘诀：用蒸馏

标题：成本不到150元！李飞飞等26分钟训出个推理模型，媲美o1和R1，秘诀：用蒸馏衡宇发自凹非寺量子位 | 公众号 QbitAI 成本不到150元，训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型？！这不是洋葱新闻，而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能...

原文链接

AGI探路者

02-07 08:47:13

推理模型

蒸馏

训练成本

分享至

打开微信扫一扫

内容投诉

生成图片

省钱也是技术活：解密DeepSeek的极致压榨术

标题：省钱也是技术活：解密DeepSeek的极致压榨术 DeepSeek-V3以557.6万美元预算，在2048个H800 GPU集群上，仅用3.7天/万亿tokens的训练时间，达到与顶级模型比肩的性能。每万亿tokens仅需180K个H800 GPU小时，总计278万GPU小时。通过671B参...

原文链接

Nebula

01-23 16:22:07

Deepseek-v3

工程优化

训练成本

分享至

打开微信扫一扫

内容投诉

生成图片

国产AI大模型之光DeepSeek把AI大佬全炸出来了！6710亿参数训练只需1/10算力

DeepSeek V3，一个参数量达6710亿的AI模型，于近期正式开源。相比Llama 3.1 405B，DeepSeek V3不仅在评测中达到开源SOTA，还能与GPT-4o和Claude 3.5 Sonnet等顶级模型相媲美，且价格仅为后者的1/53。更令人惊叹的是，DeepSeek V3仅需不到280万个GPU小时的训练时间，相比Llama 3.1的3080万GPU小时，大幅降低了成本。DeepSeek V3的API价格也极具竞争力，每百万输入tokens只需0.5元（缓存命中）/2元（缓存未命中），每百万输出tokens 8元。此外，DeepSeek V3支持FP8权重的原生开源，并提供FP8到BF16的转换脚本。DeepSeek团队的技术成就得到了多位专家的认可，包括OpenAI创始成员Karpathy和Meta科学家田渊栋。DeepSeek V3现已开放体验，官网为。

原文链接