1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:首个国产中文O1模型上线,直接数学竞赛题检验!

家人们,最近“O1大模型”非常火热,特别是昆仑万维的“Skywork O1”,首发了中文逻辑推理能力,并开启了邀测。

Skywork O1最突出的特点是其强大的推理能力,为此我们直接选取了一道AIME数学竞赛题来测试它的表现。AIME是介于AMC10、AMC12及美国数学奥林匹克竞赛之间的一个数学竞赛。

题目要求解决关于Aya散步时间的问题,Skywork O1通过建立方程组,利用代数方法求解,并验证了计算过程的自洽性,最终给出了正确答案“204”。

接着,我们用今年的高考数学题进行测试。Skywork O1采用了分步求解的方法,即使遇到复杂情况也能及时发现并纠正,最终得出正确答案。

Skywork O1包括三个细分模型: - Skywork O1 Open:基于Llama 3.1的8B开源模型。 - Skywork O1 Lite:具备完整思考能力,中文支持更好,推理速度快。 - Skywork O1 Preview:完整版推理模型,搭配自研的线上推理算法。

Skywork O1 Open在MATH数据集上的表现优于Qwen2.5-7B-instruct,解锁了许多复杂数学任务。同时,昆仑万维开源了两个推理任务的Process Reward Model(PRM),Skywork o1 Open-PRM能对模型回答中的每个步骤进行评分,效果显著。

Skywork O1在经典问题“9.9和9.11哪个大”中,通过分而治之的策略得出了正确答案。面对脑筋急转弯,它展示了多样化的思考能力。在加密问题测试中,Skywork O1归纳出字符映射关系,准确解码了密文。

尽管Skywork O1在复杂推理任务中表现出色,但在处理简单问题时显得有些繁琐。团队计划对此进行优化。

Skywork O1的成功归功于其独特的三阶段技术方案:推理反思能力训练、推理能力强化学习、推理规划。其中,PRM模型引入了精细化奖励机制,显著提升了推理质量。Q*算法的应用,使得Skywork O1在推理时能寻找最佳路径,提高了在线推理能力。

类O1模型的重要性在于其通用复杂推理能力,满足了市场对高性能推理模型的需求,尤其在科研、编程、数据分析等领域。

Skywork O1的推出标志着国产大模型的新里程碑,昆仑万维在开源方面的贡献也将加速国内开源社区的发展。

申请测试地址:www.tiangong.cn

原文链接
本文链接:https://kx.umi6.com/article/9356.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
地球上最聪明的AI!马斯克发布Grok 3:秒杀GPT 超越DeepSeek
2025-02-18 13:21:40
“起大早赶晚集”的谷歌大模型,这次真的“遥遥领先”了?
2025-03-26 20:07:52
大模型下半场:7个趋势判断
2025-04-02 19:40:41
AI进步放缓、遭遇瓶颈?OpenAI等头部公司:不存在
2024-11-29 17:58:36
GPT新版本猜想:奥特曼草莓图引发推理热潮
2024-09-06 12:03:27
清华&通院推出”绝对零”训练法,零外部数据大模型自我博弈解锁推理能力
2025-05-12 17:37:13
1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升
2025-08-01 08:51:42
Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理
2025-09-18 08:48:39
OpenAI开源两款gpt-oss系列推理大模型 能力接近o3和o4-mini
2025-08-06 11:30:27
天工大模型 4.0 o1 版 / 4o 版上线,App 及网页可免费使用
2025-01-06 11:23:41
Claude 4被曝发布在即!被DeepSeek逼得都把大招拿出来了
2025-02-14 15:39:52
智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!
2024-12-31 10:37:09
马斯克:Grok 3表现优于我们所知的任何已发布产品
2025-02-13 17:27:15
24小时热文
更多
扫一扫体验小程序