1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型?!这不是洋葱新闻,而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等联合推出的最新成果:s1。

在数学和编程能力评测中,s1的表现与DeepSeek-R1和o1相当。团队仅用16个英伟达H100,训练耗时26分钟。据TechCrunch,训练成本不到50美元,约364.61元人民币;模型作者称,训练s1所需计算资源约20美元,约145.844元人民币。

秘诀在于“蒸馏”。团队以阿里通义的Qwen2.5-32B-Instruct为基础,通过蒸馏谷歌DeepMind的Gemini 2.0 Flash Thinking实验版,最终得到s1模型。训练中,团队创建了包含1000个精选问题的数据集s1K,每个问题附有答案及Gemini 2.0的思考过程。

项目论文《s1: Simple test-time scaling》已挂上arXiv,模型s1也在GitHub上开源,研究团队提供了训练数据和代码。

研究发现,Test-time Scaling有两种方式:顺序Scaling和并行Scaling。s1团队专注于顺序部分,因为它能更好地支持深入推理和迭代。团队提出了新的顺序Scaling方法和对应的Benchmark,并引入“budget forcing”策略,强制设定思考token数量上限和下限,从而优化模型性能。

评测显示,采用budget forcing的s1-32B在MATH500上得分93.0,超过o1-mini,媲美o1和DeepSeek-R1。然而,过度抑制思考会引发死循环,导致性能提升趋于平缓。

此外,s1-32B仅用1000个样本训练,其在AIME24上的成绩接近Gemini 2.0 Thinking,成为样本效率最高的开源推理模型。

期待大模型技术更精彩的2025年!

原文链接
本文链接:https://kx.umi6.com/article/12762.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏
2025-02-07 08:47:13
推理模型 DeepSeek-R1-Lite 预览版上线,号称媲美 OpenAI o1-preview
2024-11-20 23:21:18
在DeepSeek老家发新模型,豆包怎么想的?
2025-04-18 16:15:50
国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开
2024-12-27 13:01:10
OpenAI o3 AI 推理模型成关键“侦探”,发现 Linux 内核高危漏洞
2025-05-30 11:50:26
DeepSeek小心,帝国反击战打响了
2025-02-26 22:53:26
性能比肩 Gemini-2.5 pro、o4-mini:阿里通义千问 Qwen 3 推理模型超级进化,现已开源
2025-07-26 00:31:49
字节对MoE模型训练成本再砍一刀 成本可节省40%
2025-03-10 17:52:30
Ilya宣判后GPT-5被曝屡训屡败,一次训数月,数据要人工从头构建
2024-12-22 13:22:12
财跃星辰CTO白祚:推理模型将快速迭代到Agent模型
2025-02-23 19:04:12
Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品
2025-01-18 13:33:12
中国大模型数量占全球超1/3;AI模型训练成本暴涨,2027年或达1000亿美元;Kimi发布官方浏览器插件丨AI情报局
2024-07-09 13:41:20
省钱也是技术活:解密DeepSeek的极致压榨术
2025-01-23 16:22:07
24小时热文
更多
扫一扫体验小程序