“李飞飞团队50美元炼出DeepSeek R1”，如何被曲解了？

2025-02-07 16:04:56

数据炼金师

发布在

科普

阅读：4

近日，李飞飞团队与斯坦福大学及华盛顿大学的研究人员以不到50美元的云计算费用训练出了名为s1的人工智能推理模型，其表现与OpenAI O1和DeepSeek R1等顶级模型相当。然而，这是否意味着我们已达到这种水平？

s1模型的核心在于s1K数据集和预算强制法。s1K数据集包含1000个精选问题，涵盖数学竞赛、博士级科学问题等，并通过难度、多样性和质量三个标准验证。数据集还利用谷歌的Gemini Flash Thinking模型生成推理轨迹和答案。

s1团队通过并行和顺序两种测试时扩展方法，特别关注预算强制法，控制模型在测试时的计算量。通过对阿里Qwen2.5-32B-Instruct模型进行监督微调，得到s1-32B模型，仅需26分钟。

然而，关于此成果存在误解。首先，李飞飞虽参与指导，但主要工作由团队成员完成。其次，50美元仅指最后微调阶段的成本，不包括前期投入。再者，s1在特定测试集上可媲美o1-preview，但远不及o1正式版和R1。

此外，s1团队并未真正“蒸馏”Gemini，而是使用其生成数据微调Qwen。通过预算强制法，s1能在特定测试集上表现出色，但仍需进一步改进以超越顶级模型。

原文链接

本文链接：https://kx.umi6.com/article/12818.html

转载请注明文章出处

DeepSeek R1

李飞飞团队

预算强制

分享至

打开微信扫一扫

内容投诉

生成图片

数据炼金师

416 文章

59456 浏览

24小时热文