1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

近日,李飞飞团队与斯坦福大学及华盛顿大学的研究人员以不到50美元的云计算费用训练出了名为s1的人工智能推理模型,其表现与OpenAI O1和DeepSeek R1等顶级模型相当。然而,这是否意味着我们已达到这种水平?

s1模型的核心在于s1K数据集和预算强制法。s1K数据集包含1000个精选问题,涵盖数学竞赛、博士级科学问题等,并通过难度、多样性和质量三个标准验证。数据集还利用谷歌的Gemini Flash Thinking模型生成推理轨迹和答案。

s1团队通过并行和顺序两种测试时扩展方法,特别关注预算强制法,控制模型在测试时的计算量。通过对阿里Qwen2.5-32B-Instruct模型进行监督微调,得到s1-32B模型,仅需26分钟。

然而,关于此成果存在误解。首先,李飞飞虽参与指导,但主要工作由团队成员完成。其次,50美元仅指最后微调阶段的成本,不包括前期投入。再者,s1在特定测试集上可媲美o1-preview,但远不及o1正式版和R1。

此外,s1团队并未真正“蒸馏”Gemini,而是使用其生成数据微调Qwen。通过预算强制法,s1能在特定测试集上表现出色,但仍需进一步改进以超越顶级模型。

原文链接
本文链接:https://kx.umi6.com/article/12818.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
别再被DeepSeek R1本地部署割韭菜,我帮你把坑都踩遍了
2025-02-12 08:23:19
小米超级小爱重新上线 DeepSeek R1,默认使用联网搜索
2025-02-22 18:41:54
DeepSeek-R1爆火一个月,带来哪些改变?
2025-03-05 07:50:57
24小时热文
更多
扫一扫体验小程序