综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
11月11日,月之暗面联合创始人兼CEO杨植麟在凌晨的社区活动中否认了Kimi K2 Thinking模型训练成本为460万美元的报道。他表示,该数字并非官方数据,且训练成本难以量化,因包含大量研究与实验投入。此外,杨植麟透露,Kimi K3模型将在萨姆·奥尔特曼的万亿美元数据中心建成前推出,进一步展示了公司在AI领域的研发进展与规划。
原文链接
2025年9月,中国AI公司DeepSeek凭借其大模型R1首次登上《Nature》封面,成为首家获此殊荣的中国公司,创始人梁文锋为通讯作者。论文首次披露R1训练成本仅约29.4万美元(约合人民币208万),使用512张H800 GPU完成训练,参数规模达660B。评审专家称R1是首个经历同行评审的大型语言模型,影响力覆盖全球研究领域。截至发文,其谷歌学术引用达3596次,Hugging Face下载量超1090万次。DeepSeek还公开了数据来源、安全性评估等技术细节,并开源模型权重,推动社区发展。此次突破标志着中国AI研究迈向新高度,引发行业关注。
原文链接
6月17日凌晨,上海AI独角兽MiniMax发布全球首个开源大规模混合架构推理模型M1。M1支持100万Token上下文窗口,推理输出可达8万Token,且强化训练成本仅53万美金,远低于行业平均水平。该模型定价分三个档位,前两档低于DeepSeek-R1,128k-1M Token档为行业空白。MiniMax称M1所需算力仅为DeepSeek R1的25%-30%,其新算法CISPO使强化学习阶段仅用512块H800 GPU,三周完成训练。此举标志着MiniMax加入大模型竞争,同时开启“开源周”,未来四天将发布更多技术更新。目前,DeepSeek R2的发布时间仍未确定,对行业格局带来不确定性。
原文链接
3月24日,蚂蚁集团就“百灵”大模型训练成本问题作出回应,表示已针对不同芯片持续优化,降低成本并计划逐步开源。此前,蚂蚁Ling团队在Arxiv平台发布论文,推出百灵轻量版(168亿参数)和增强版(2900亿参数)两款MoE大语言模型,采用创新方法实现在低性能硬件上的高效训练。实验显示,该3000亿参数模型在国产GPU设备上的表现与使用英伟达芯片的同类模型相当,显著降低了训练成本。
原文链接
财联社3月10日报道,字节跳动大模型团队宣布开源一种针对MoE架构的优化技术,可提升训练效率1.7倍,节省成本40%。该技术已在字节跳动的万卡集群中应用,累计节省数百万GPU小时训练算力。
原文链接
2月26日,据沃顿商学院教授Ethan Mollick透露,人工智能公司Anthropic的最新旗舰模型Claude 3.7 Sonnet的训练成本仅为数千万美元。该模型规模不及10^26 FLOP级别。此前,Anthropic CEO达里奥・阿莫迪提到,Claude 3.5 Sonnet的训练成本同样为数千万美元。相比之下,GPT-4的开发成本超过1亿美元,Gemini Ultra的训练费用接近2亿美元。这意味着发布先进AI模型的成本正在降低。目前,Anthropic尚未对此作出回应。
原文链接
昨天,马斯克携“地球上最聪明的AI”Gork 3亮相,其推理能力超越目前所有已知模型。DeepSeek R1接入微信并被广泛测试,助推其估值飙升至千亿美金。DeepSeek以557.6万美元的GPU成本训练出与OpenAI o1能力相当的模型,引发业界关注。DeepSeek不仅在训练成本上表现出色,还在模型结构、预训练和后训练方面进行了优化,显著提高了效率。此外,DeepSeek的推理大模型和通用大模型各有优劣,适用于不同场景。未来,随着算法进步,大模型训练成本有望继续降低。
原文链接
财联社2月18日电,马斯克在直播中首次透露,Grok 3的训练成本高达20万块英伟达GPU。训练工作在xAI公司的数据中心内完成。
原文链接
标题:成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型?!这不是洋葱新闻,而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能...
原文链接
标题:省钱也是技术活:解密DeepSeek的极致压榨术
DeepSeek-V3以557.6万美元预算,在2048个H800 GPU集群上,仅用3.7天/万亿tokens的训练时间,达到与顶级模型比肩的性能。每万亿tokens仅需180K个H800 GPU小时,总计278万GPU小时。
通过671B参...
原文链接
加载更多
暂无内容