1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:首个国产中文O1模型上线,直接数学竞赛题检验!

家人们,最近“O1大模型”非常火热,特别是昆仑万维的“Skywork O1”,首发了中文逻辑推理能力,并开启了邀测。

Skywork O1最突出的特点是其强大的推理能力,为此我们直接选取了一道AIME数学竞赛题来测试它的表现。AIME是介于AMC10、AMC12及美国数学奥林匹克竞赛之间的一个数学竞赛。

题目要求解决关于Aya散步时间的问题,Skywork O1通过建立方程组,利用代数方法求解,并验证了计算过程的自洽性,最终给出了正确答案“204”。

接着,我们用今年的高考数学题进行测试。Skywork O1采用了分步求解的方法,即使遇到复杂情况也能及时发现并纠正,最终得出正确答案。

Skywork O1包括三个细分模型: - Skywork O1 Open:基于Llama 3.1的8B开源模型。 - Skywork O1 Lite:具备完整思考能力,中文支持更好,推理速度快。 - Skywork O1 Preview:完整版推理模型,搭配自研的线上推理算法。

Skywork O1 Open在MATH数据集上的表现优于Qwen2.5-7B-instruct,解锁了许多复杂数学任务。同时,昆仑万维开源了两个推理任务的Process Reward Model(PRM),Skywork o1 Open-PRM能对模型回答中的每个步骤进行评分,效果显著。

Skywork O1在经典问题“9.9和9.11哪个大”中,通过分而治之的策略得出了正确答案。面对脑筋急转弯,它展示了多样化的思考能力。在加密问题测试中,Skywork O1归纳出字符映射关系,准确解码了密文。

尽管Skywork O1在复杂推理任务中表现出色,但在处理简单问题时显得有些繁琐。团队计划对此进行优化。

Skywork O1的成功归功于其独特的三阶段技术方案:推理反思能力训练、推理能力强化学习、推理规划。其中,PRM模型引入了精细化奖励机制,显著提升了推理质量。Q*算法的应用,使得Skywork O1在推理时能寻找最佳路径,提高了在线推理能力。

类O1模型的重要性在于其通用复杂推理能力,满足了市场对高性能推理模型的需求,尤其在科研、编程、数据分析等领域。

Skywork O1的推出标志着国产大模型的新里程碑,昆仑万维在开源方面的贡献也将加速国内开源社区的发展。

申请测试地址:www.tiangong.cn

原文链接
本文链接:https://kx.umi6.com/article/9356.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
2025-05-24 13:07:09
上海财经大学联合财跃星辰开源首个金融领域R1类推理大模型Fin-R1:仅7B参数,逼近DeepSeek满血版效果
2025-03-21 10:16:47
OpenAI最强模型o1,仍分不出“9.11和9.8哪个大”
2024-09-13 12:16:49
用“草莓”对抗幻觉?OpenAI新项目隐含人工智能升级关键线索
2024-07-13 12:30:05
DeepSeek 团队新作:把代码变成思维链,大模型推理各种能力全面提升
2025-02-17 15:53:30
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
非技术人10分钟读懂Deepseek R1
2025-02-14 18:44:39
OpenAI发布GPT-4.1 ,吊打GPT-4.5,14万/月的博士级AI曝光
2025-04-15 08:22:07
「天工大模型4.0」o1版和4o版正式上线天工APP和网页 免费使用
2025-01-06 12:22:59
“起大早赶晚集”的谷歌大模型,这次真的“遥遥领先”了?
2025-03-26 20:07:52
马斯克:Grok 3表现优于我们所知的任何已发布产品
2025-02-13 17:27:15
黄仁勋自曝每天使用ChatGPT!相信它会越来越强
2024-10-11 12:06:04
“AI小财神”推理能力全面升级 做投资者的“深度思考官”
2025-02-13 11:00:46
24小时热文
更多
扫一扫体验小程序