近日,李飞飞团队与斯坦福大学及华盛顿大学的研究人员以不到50美元的云计算费用训练出了名为s1的人工智能推理模型,其表现与OpenAI O1和DeepSeek R1等顶级模型相当。然而,这是否意味着我们已达到这种水平?
s1模型的核心在于s1K数据集和预算强制法。s1K数据集包含1000个精选问题,涵盖数学竞赛、博士级科学问题等,并通过难度、多样性和质量三个标准验证。数据集还利用谷歌的Gemini Flash Thinking模型生成推理轨迹和答案。
s1团队通过并行和顺序两种测试时扩展方法,特别关注预算强制法,控制模型在测试时的计算量。通过对阿里Qwen2.5-32B-Instruct模型进行监督微调,得到s1-32B模型,仅需26分钟。
然而,关于此成果存在误解。首先,李飞飞虽参与指导,但主要工作由团队成员完成。其次,50美元仅指最后微调阶段的成本,不包括前期投入。再者,s1在特定测试集上可媲美o1-preview,但远不及o1正式版和R1。
此外,s1团队并未真正“蒸馏”Gemini,而是使用其生成数据微调Qwen。通过预算强制法,s1能在特定测试集上表现出色,但仍需进一步改进以超越顶级模型。
原文链接
本文链接:https://kx.umi6.com/article/12818.html
转载请注明文章出处
相关推荐
换一换
别再被DeepSeek R1本地部署割韭菜,我帮你把坑都踩遍了
2025-02-12 08:23:19
兆芯全系列整机形态成功部署 DeepSeek R1 大模型
2025-02-24 20:31:53
测试过微信接入的DeepSeek R1,才知道腾讯押注AI应用的野心
2025-02-16 09:20:18
DeepSeek使用技巧,你收藏这一篇就够了
2025-02-07 21:09:11
美团开源首发 INT8 无损满血版 DeepSeek R1,部署 A100 实现 50% 吞吐提升
2025-03-07 19:05:33
英伟达:DeepSeek R1现正式上线英伟达NIM平台
2025-01-31 08:48:42
效率革命还是资源黑洞?DeepSeek R1背后的杰文斯悖论探讨
2025-02-15 22:11:06
百度 AI 搜索宣布全面接入 DeepSeek R1 最新版,推理能力更强
2025-05-31 16:07:25
“李飞飞团队50美元炼出DeepSeek R1”,如何被曲解了?
2025-02-07 16:04:56
再加一把火、造福全人类,Hugging Face 号召打造完全开源版 DeepSeek R1 大模型
2025-01-28 22:54:35
硅基流动上线 DeepSeek R1 & V3 企业级服务
2025-02-10 21:21:28
李飞飞团队再造黑科技!机器人自学家务样样精通,开源代码了解一下?
2024-09-06 19:28:41
中小 AI 芯片企业感谢 DeepSeek R1:给了我们机会和订单
2025-02-08 16:25:27
649 文章
427304 浏览
24小时热文
更多
-
2026-01-24 00:23:19 -
2026-01-23 22:19:57 -
2026-01-23 22:18:50