标题:首个国产中文O1模型上线,直接数学竞赛题检验!
家人们,最近“O1大模型”非常火热,特别是昆仑万维的“Skywork O1”,首发了中文逻辑推理能力,并开启了邀测。
Skywork O1最突出的特点是其强大的推理能力,为此我们直接选取了一道AIME数学竞赛题来测试它的表现。AIME是介于AMC10、AMC12及美国数学奥林匹克竞赛之间的一个数学竞赛。
题目要求解决关于Aya散步时间的问题,Skywork O1通过建立方程组,利用代数方法求解,并验证了计算过程的自洽性,最终给出了正确答案“204”。
接着,我们用今年的高考数学题进行测试。Skywork O1采用了分步求解的方法,即使遇到复杂情况也能及时发现并纠正,最终得出正确答案。
Skywork O1包括三个细分模型: - Skywork O1 Open:基于Llama 3.1的8B开源模型。 - Skywork O1 Lite:具备完整思考能力,中文支持更好,推理速度快。 - Skywork O1 Preview:完整版推理模型,搭配自研的线上推理算法。
Skywork O1 Open在MATH数据集上的表现优于Qwen2.5-7B-instruct,解锁了许多复杂数学任务。同时,昆仑万维开源了两个推理任务的Process Reward Model(PRM),Skywork o1 Open-PRM能对模型回答中的每个步骤进行评分,效果显著。
Skywork O1在经典问题“9.9和9.11哪个大”中,通过分而治之的策略得出了正确答案。面对脑筋急转弯,它展示了多样化的思考能力。在加密问题测试中,Skywork O1归纳出字符映射关系,准确解码了密文。
尽管Skywork O1在复杂推理任务中表现出色,但在处理简单问题时显得有些繁琐。团队计划对此进行优化。
Skywork O1的成功归功于其独特的三阶段技术方案:推理反思能力训练、推理能力强化学习、推理规划。其中,PRM模型引入了精细化奖励机制,显著提升了推理质量。Q*算法的应用,使得Skywork O1在推理时能寻找最佳路径,提高了在线推理能力。
类O1模型的重要性在于其通用复杂推理能力,满足了市场对高性能推理模型的需求,尤其在科研、编程、数据分析等领域。
Skywork O1的推出标志着国产大模型的新里程碑,昆仑万维在开源方面的贡献也将加速国内开源社区的发展。
申请测试地址:www.tiangong.cn
-
2025-10-26 08:00:01 -
2025-10-26 00:45:16 -
2025-10-25 23:44:04