标题:MSRA推出rStar-Math,使Qwen2.5 7B数学推理超越o1
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI
7B参数的Qwen2.5数学推理表现超过o1-preview,靠的是MSRA的最新算法rStar-Math。该算法通过代码增强CoT、蒙特卡洛树搜索(MCTS)等技术,让小模型在不依赖教师模型的情况下,通过多轮自我进化掌握数学推理。
在美国数学竞赛AIME 2024中,rStar-Math解决了53.3%的难题,高于o1-preview的44.6%。在MATH基准测试中,rStar-Math将Qwen2.5-Math-7B的准确率从58.8%提升至90.0%,Qwen2.5-Math-1.5B从51.2%提升至87.8%,Phi3-mini-3.8B从41.4%提升至86.4%,均超越o1-preview。
rStar-Math通过三项创新方法实现: 1. 代码增强CoT数据合成方法 2. 过程奖励模型训练方法 3. 四轮自我思维深度进化
四轮自我进化中,每轮使用MCTS生成推理轨迹,不断优化策略和奖励模型。最终,747k数学题的准确率达到90.25%。
实验显示,rStar-Math显著提高了SLM的数学推理能力,即使在较小模型尺寸下也能达到与OpenAI o1相当甚至更好的性能。
原文链接
本文链接:https://kx.umi6.com/article/11477.html
转载请注明文章出处
相关推荐
换一换
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
2024-10-15 17:25:58
微软推出 14B 参数小语言模型 Phi-4:专攻数学等领域复杂推理
2024-12-13 13:24:50
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
2025-06-02 14:38:11
超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品
2025-04-01 11:18:45
DeepSeek-Prover-V2 登场:AI 数学推理新王者,88.9% 通过率设新标杆
2025-05-01 10:18:39
DeepSeek开源新模型,数学推理能力大提升
2025-05-01 09:16:24
微软 rStar-Math 技术登场:小语言 AI 模型数学推理从“不及格”一跃成为“优等生”
2025-01-11 12:39:34
苹果联合推出 AI 交错推理方法,Qwen2.5 模型响应速度快 80%、准确率提高 19.3%
2025-05-30 14:56:13
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
阿里通义千问推出Qwen3-Max-Thinking尝鲜版
2025-11-04 17:23:23
马斯克旗下xAI发布Grok 3聊天机器人 数学推理性能超GPT4o
2025-02-18 13:22:43
Qwen2.5登全球开源王座!72B击败LIama3 405B,轻松胜过GPT-4o-mini
2024-09-19 15:23:24
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
769 文章
638742 浏览
24小时热文
更多
-
2026-04-25 20:32:08 -
2026-04-25 16:23:46 -
2026-04-25 16:20:40