s1模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

阿里云确认：李飞飞团队 s1 模型基于 Qwen2.5-32B-Instruct 模型训练

阿里云确认，李飞飞团队的s1模型基于Qwen2.5-32B-Instruct模型训练。该模型在数学和编码能力测试中表现优异，与OpenAI的o1和DeepSeek的R1模型相当。李飞飞团队仅花费不到50美元的云计算费用，在16块H100 GPU上监督微调26分钟完成训练。他们利用蒸馏技术和监督微调方法，使用一个包含1000个精心策划问题的数据集进行训练，该数据集还包含了谷歌Gemini 2.0提供的答案及其思考过程。此模型在竞赛数学问题上的表现比o1-preview高出27%。

原文链接