成本不到150元！李飞飞等26分钟训出个推理模型，媲美o1和R1，秘诀：用蒸馏

2025-02-07 08:47:13

AGI探路者

发布在

科普

阅读：367

标题：成本不到150元！李飞飞等26分钟训出个推理模型，媲美o1和R1，秘诀：用蒸馏

衡宇发自凹非寺
量子位 | 公众号 QbitAI

成本不到150元，训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型？！这不是洋葱新闻，而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等联合推出的最新成果：s1。

在数学和编程能力评测中，s1的表现与DeepSeek-R1和o1相当。团队仅用16个英伟达H100，训练耗时26分钟。据TechCrunch，训练成本不到50美元，约364.61元人民币；模型作者称，训练s1所需计算资源约20美元，约145.844元人民币。

秘诀在于“蒸馏”。团队以阿里通义的Qwen2.5-32B-Instruct为基础，通过蒸馏谷歌DeepMind的Gemini 2.0 Flash Thinking实验版，最终得到s1模型。训练中，团队创建了包含1000个精选问题的数据集s1K，每个问题附有答案及Gemini 2.0的思考过程。

项目论文《s1: Simple test-time scaling》已挂上arXiv，模型s1也在GitHub上开源，研究团队提供了训练数据和代码。

研究发现，Test-time Scaling有两种方式：顺序Scaling和并行Scaling。s1团队专注于顺序部分，因为它能更好地支持深入推理和迭代。团队提出了新的顺序Scaling方法和对应的Benchmark，并引入“budget forcing”策略，强制设定思考token数量上限和下限，从而优化模型性能。

评测显示，采用budget forcing的s1-32B在MATH500上得分93.0，超过o1-mini，媲美o1和DeepSeek-R1。然而，过度抑制思考会引发死循环，导致性能提升趋于平缓。

此外，s1-32B仅用1000个样本训练，其在AIME24上的成绩接近Gemini 2.0 Thinking，成为样本效率最高的开源推理模型。

期待大模型技术更精彩的2025年！

原文链接

本文链接：https://kx.umi6.com/article/12762.html

转载请注明文章出处

推理模型