近日,李飞飞团队与斯坦福大学及华盛顿大学的研究人员以不到50美元的云计算费用训练出了名为s1的人工智能推理模型,其表现与OpenAI O1和DeepSeek R1等顶级模型相当。然而,这是否意味着我们已达到这种水平?
s1模型的核心在于s1K数据集和预算强制法。s1K数据集包含1000个精选问题,涵盖数学竞赛、博士级科学问题等,并通过难度、多样性和质量三个标准验证。数据集还利用谷歌的Gemini Flash Thinking模型生成推理轨迹和答案。
s1团队通过并行和顺序两种测试时扩展方法,特别关注预算强制法,控制模型在测试时的计算量。通过对阿里Qwen2.5-32B-Instruct模型进行监督微调,得到s1-32B模型,仅需26分钟。
然而,关于此成果存在误解。首先,李飞飞虽参与指导,但主要工作由团队成员完成。其次,50美元仅指最后微调阶段的成本,不包括前期投入。再者,s1在特定测试集上可媲美o1-preview,但远不及o1正式版和R1。
此外,s1团队并未真正“蒸馏”Gemini,而是使用其生成数据微调Qwen。通过预算强制法,s1能在特定测试集上表现出色,但仍需进一步改进以超越顶级模型。
原文链接
本文链接:https://kx.umi6.com/article/12818.html
转载请注明文章出处
相关推荐
.png)
换一换
兆芯全系列整机形态成功部署 DeepSeek R1 大模型
2025-02-24 20:31:53
李飞飞团队50美元训练出DeepSeek R1?
2025-02-06 22:42:33
科大讯飞星火 X1 模型升级,数学能力全面对标 DeepSeek R1 和 OpenAI o1
2025-03-03 10:16:41
“李飞飞团队50美元炼出DeepSeek R1”,如何被曲解了?
2025-02-07 16:04:56
非技术人10分钟读懂Deepseek R1
2025-02-14 18:44:39
中小 AI 芯片企业感谢 DeepSeek R1:给了我们机会和订单
2025-02-08 16:25:27
李飞飞团队再造黑科技!机器人自学家务样样精通,开源代码了解一下?
2024-09-06 19:28:41
再加一把火、造福全人类,Hugging Face 号召打造完全开源版 DeepSeek R1 大模型
2025-01-28 22:54:35
图文并茂:DeepSeek R1 是怎么练成的
2025-02-18 11:11:33
DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制
2025-02-14 13:35:29
昆仑万维旗下天工AI正式上线DeepSeek R1+联网搜索
2025-02-10 18:14:14
秘塔 AI 接入满血版 DeepSeek R1 推理模型
2025-02-03 11:04:51
硅基流动上线 DeepSeek R1 & V3 企业级服务
2025-02-10 21:21:28
472 文章
152724 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08