
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
阿里云确认,李飞飞团队的s1模型基于Qwen2.5-32B-Instruct模型训练。该模型在数学和编码能力测试中表现优异,与OpenAI的o1和DeepSeek的R1模型相当。李飞飞团队仅花费不到50美元的云计算费用,在16块H100 GPU上监督微调26分钟完成训练。他们利用蒸馏技术和监督微调方法,使用一个包含1000个精心策划问题的数据集进行训练,该数据集还包含了谷歌Gemini 2.0提供的答案及其思考过程。此模型在竞赛数学问题上的表现比o1-preview高出27%。
原文链接
加载更多

暂无内容