1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:MSRA推出rStar-Math,使Qwen2.5 7B数学推理超越o1

衡宇 发自 凹非寺 量子位 | 公众号 QbitAI

7B参数的Qwen2.5数学推理表现超过o1-preview,靠的是MSRA的最新算法rStar-Math。该算法通过代码增强CoT、蒙特卡洛树搜索(MCTS)等技术,让小模型在不依赖教师模型的情况下,通过多轮自我进化掌握数学推理。

在美国数学竞赛AIME 2024中,rStar-Math解决了53.3%的难题,高于o1-preview的44.6%。在MATH基准测试中,rStar-Math将Qwen2.5-Math-7B的准确率从58.8%提升至90.0%,Qwen2.5-Math-1.5B从51.2%提升至87.8%,Phi3-mini-3.8B从41.4%提升至86.4%,均超越o1-preview。

rStar-Math通过三项创新方法实现: 1. 代码增强CoT数据合成方法 2. 过程奖励模型训练方法 3. 四轮自我思维深度进化

四轮自我进化中,每轮使用MCTS生成推理轨迹,不断优化策略和奖励模型。最终,747k数学题的准确率达到90.25%。

实验显示,rStar-Math显著提高了SLM的数学推理能力,即使在较小模型尺寸下也能达到与OpenAI o1相当甚至更好的性能。

原文链接
本文链接:https://kx.umi6.com/article/11477.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌研究:合成数据使大模型数学推理能力提升八倍
2025-04-07 09:47:20
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
2025-06-02 14:38:11
有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型
2025-06-23 17:25:48
24小时热文
更多
扫一扫体验小程序