近日,李飞飞团队与斯坦福大学及华盛顿大学的研究人员以不到50美元的云计算费用训练出了名为s1的人工智能推理模型,其表现与OpenAI O1和DeepSeek R1等顶级模型相当。然而,这是否意味着我们已达到这种水平?
s1模型的核心在于s1K数据集和预算强制法。s1K数据集包含1000个精选问题,涵盖数学竞赛、博士级科学问题等,并通过难度、多样性和质量三个标准验证。数据集还利用谷歌的Gemini Flash Thinking模型生成推理轨迹和答案。
s1团队通过并行和顺序两种测试时扩展方法,特别关注预算强制法,控制模型在测试时的计算量。通过对阿里Qwen2.5-32B-Instruct模型进行监督微调,得到s1-32B模型,仅需26分钟。
然而,关于此成果存在误解。首先,李飞飞虽参与指导,但主要工作由团队成员完成。其次,50美元仅指最后微调阶段的成本,不包括前期投入。再者,s1在特定测试集上可媲美o1-preview,但远不及o1正式版和R1。
此外,s1团队并未真正“蒸馏”Gemini,而是使用其生成数据微调Qwen。通过预算强制法,s1能在特定测试集上表现出色,但仍需进一步改进以超越顶级模型。
原文链接
本文链接:https://kx.umi6.com/article/12818.html
转载请注明文章出处
相关推荐
.png)
换一换
别再被DeepSeek R1本地部署割韭菜,我帮你把坑都踩遍了
2025-02-12 08:23:19
小米超级小爱重新上线 DeepSeek R1,默认使用联网搜索
2025-02-22 18:41:54
DeepSeek-R1爆火一个月,带来哪些改变?
2025-03-05 07:50:57
416 文章
59456 浏览
24小时热文
更多

-
2025-07-21 11:21:54
-
2025-07-21 11:20:45
-
2025-07-21 11:19:36