阿里云确认：李飞飞团队 s1 模型基于 Qwen2.5-32B-Instruct 模型训练

2025-02-06 22:40:21

新智燎原

发布在

快讯

阅读：512

阿里云确认，李飞飞团队的s1模型基于Qwen2.5-32B-Instruct模型训练。该模型在数学和编码能力测试中表现优异，与OpenAI的o1和DeepSeek的R1模型相当。李飞飞团队仅花费不到50美元的云计算费用，在16块H100 GPU上监督微调26分钟完成训练。他们利用蒸馏技术和监督微调方法，使用一个包含1000个精心策划问题的数据集进行训练，该数据集还包含了谷歌Gemini 2.0提供的答案及其思考过程。此模型在竞赛数学问题上的表现比o1-preview高出27%。

原文链接

本文链接：https://kx.umi6.com/article/12747.html

转载请注明文章出处

Qwen2.5-32B-Instruct