阿里云确认,李飞飞团队的s1模型基于Qwen2.5-32B-Instruct模型训练。该模型在数学和编码能力测试中表现优异,与OpenAI的o1和DeepSeek的R1模型相当。李飞飞团队仅花费不到50美元的云计算费用,在16块H100 GPU上监督微调26分钟完成训练。他们利用蒸馏技术和监督微调方法,使用一个包含1000个精心策划问题的数据集进行训练,该数据集还包含了谷歌Gemini 2.0提供的答案及其思考过程。此模型在竞赛数学问题上的表现比o1-preview高出27%。
原文链接
本文链接:https://kx.umi6.com/article/12747.html
转载请注明文章出处
相关推荐
.png)
换一换
李飞飞团队50美元训练出DeepSeek R1?
2025-02-06 22:42:33
李飞飞团队再造黑科技!机器人自学家务样样精通,开源代码了解一下?
2024-09-06 19:28:41
“李飞飞团队50美元炼出DeepSeek R1”,如何被曲解了?
2025-02-07 16:04:56
471 文章
78912 浏览
24小时热文
更多

-
2025-07-20 23:09:27
-
2025-07-20 22:09:17
-
2025-07-20 21:10:03