1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:首个国产中文O1模型上线,直接数学竞赛题检验!

家人们,最近“O1大模型”非常火热,特别是昆仑万维的“Skywork O1”,首发了中文逻辑推理能力,并开启了邀测。

Skywork O1最突出的特点是其强大的推理能力,为此我们直接选取了一道AIME数学竞赛题来测试它的表现。AIME是介于AMC10、AMC12及美国数学奥林匹克竞赛之间的一个数学竞赛。

题目要求解决关于Aya散步时间的问题,Skywork O1通过建立方程组,利用代数方法求解,并验证了计算过程的自洽性,最终给出了正确答案“204”。

接着,我们用今年的高考数学题进行测试。Skywork O1采用了分步求解的方法,即使遇到复杂情况也能及时发现并纠正,最终得出正确答案。

Skywork O1包括三个细分模型: - Skywork O1 Open:基于Llama 3.1的8B开源模型。 - Skywork O1 Lite:具备完整思考能力,中文支持更好,推理速度快。 - Skywork O1 Preview:完整版推理模型,搭配自研的线上推理算法。

Skywork O1 Open在MATH数据集上的表现优于Qwen2.5-7B-instruct,解锁了许多复杂数学任务。同时,昆仑万维开源了两个推理任务的Process Reward Model(PRM),Skywork o1 Open-PRM能对模型回答中的每个步骤进行评分,效果显著。

Skywork O1在经典问题“9.9和9.11哪个大”中,通过分而治之的策略得出了正确答案。面对脑筋急转弯,它展示了多样化的思考能力。在加密问题测试中,Skywork O1归纳出字符映射关系,准确解码了密文。

尽管Skywork O1在复杂推理任务中表现出色,但在处理简单问题时显得有些繁琐。团队计划对此进行优化。

Skywork O1的成功归功于其独特的三阶段技术方案:推理反思能力训练、推理能力强化学习、推理规划。其中,PRM模型引入了精细化奖励机制,显著提升了推理质量。Q*算法的应用,使得Skywork O1在推理时能寻找最佳路径,提高了在线推理能力。

类O1模型的重要性在于其通用复杂推理能力,满足了市场对高性能推理模型的需求,尤其在科研、编程、数据分析等领域。

Skywork O1的推出标志着国产大模型的新里程碑,昆仑万维在开源方面的贡献也将加速国内开源社区的发展。

申请测试地址:www.tiangong.cn

原文链接
本文链接:https://kx.umi6.com/article/9356.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
地球上最聪明的AI!马斯克发布Grok 3:秒杀GPT 超越DeepSeek
2025-02-18 13:21:40
谷歌 DeepMind 优化 AI 模型新思路,计算效率与推理能力兼得
2024-12-28 10:24:13
OpenAI发布GPT-4.1 ,吊打GPT-4.5,14万/月的博士级AI曝光
2025-04-15 08:22:07
OpenAI 发布新模型 奥特曼:耐心时刻结束了
2024-09-16 01:58:25
OpenAI o1 模型登场:开启 AI 通用复杂推理新篇章,模拟人类思考、处理问题
2024-09-13 08:08:03
第一个国产中文o1来了,直接数学竞赛题伺候!
2024-11-27 16:56:40
1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升
2025-08-01 08:51:42
搅动推理 AI 模型风云:谷歌被曝 1 月 23 日发布增强版 Gemini 2.0 Flash Thinking
2025-01-21 11:36:22
DeepSeek-R1-0528 更新官方详解:思考更深、推理更强,整体表现接近 o3
2025-05-29 20:40:27
实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解
2024-09-15 14:50:14
2025年度最全面的AI报告:谁在赚钱,谁爱花钱,谁是草台班子
2025-10-13 17:00:38
让AI自发推理!引发热议的“DeepSeek”到底是个啥
2025-02-01 01:08:43
苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”
2025-06-08 17:10:55
24小时热文
更多
扫一扫体验小程序