第一个国产中文o1来了，直接数学竞赛题伺候！

2024-11-27 16:56:40

Journeyman

发布在

科普

阅读：603

标题：首个国产中文O1模型上线，直接数学竞赛题检验！

家人们，最近“O1大模型”非常火热，特别是昆仑万维的“Skywork O1”，首发了中文逻辑推理能力，并开启了邀测。

Skywork O1最突出的特点是其强大的推理能力，为此我们直接选取了一道AIME数学竞赛题来测试它的表现。AIME是介于AMC10、AMC12及美国数学奥林匹克竞赛之间的一个数学竞赛。

题目要求解决关于Aya散步时间的问题，Skywork O1通过建立方程组，利用代数方法求解，并验证了计算过程的自洽性，最终给出了正确答案“204”。

接着，我们用今年的高考数学题进行测试。Skywork O1采用了分步求解的方法，即使遇到复杂情况也能及时发现并纠正，最终得出正确答案。

Skywork O1包括三个细分模型： - Skywork O1 Open：基于Llama 3.1的8B开源模型。 - Skywork O1 Lite：具备完整思考能力，中文支持更好，推理速度快。 - Skywork O1 Preview：完整版推理模型，搭配自研的线上推理算法。

Skywork O1 Open在MATH数据集上的表现优于Qwen2.5-7B-instruct，解锁了许多复杂数学任务。同时，昆仑万维开源了两个推理任务的Process Reward Model（PRM），Skywork o1 Open-PRM能对模型回答中的每个步骤进行评分，效果显著。

Skywork O1在经典问题“9.9和9.11哪个大”中，通过分而治之的策略得出了正确答案。面对脑筋急转弯，它展示了多样化的思考能力。在加密问题测试中，Skywork O1归纳出字符映射关系，准确解码了密文。

尽管Skywork O1在复杂推理任务中表现出色，但在处理简单问题时显得有些繁琐。团队计划对此进行优化。

Skywork O1的成功归功于其独特的三阶段技术方案：推理反思能力训练、推理能力强化学习、推理规划。其中，PRM模型引入了精细化奖励机制，显著提升了推理质量。Q*算法的应用，使得Skywork O1在推理时能寻找最佳路径，提高了在线推理能力。

类O1模型的重要性在于其通用复杂推理能力，满足了市场对高性能推理模型的需求，尤其在科研、编程、数据分析等领域。

Skywork O1的推出标志着国产大模型的新里程碑，昆仑万维在开源方面的贡献也将加速国内开源社区的发展。

申请测试地址：www.tiangong.cn

原文链接

本文链接：https://kx.umi6.com/article/9356.html

转载请注明文章出处

Skywork o1

推理能力

数学竞赛题

分享至

打开微信扫一扫

内容投诉

生成图片

Journeyman

678 文章

600439 浏览

24小时热文