让Qwen2.5 7B超越o1，微软干的！MSRA推出小模型数学推理自我进化新方法

2025-01-10 12:15:13

新智燎原

发布在

科普

阅读：347

标题：MSRA推出rStar-Math，使Qwen2.5 7B数学推理超越o1

衡宇发自凹非寺量子位 | 公众号 QbitAI

7B参数的Qwen2.5数学推理表现超过o1-preview，靠的是MSRA的最新算法rStar-Math。该算法通过代码增强CoT、蒙特卡洛树搜索（MCTS）等技术，让小模型在不依赖教师模型的情况下，通过多轮自我进化掌握数学推理。

在美国数学竞赛AIME 2024中，rStar-Math解决了53.3%的难题，高于o1-preview的44.6%。在MATH基准测试中，rStar-Math将Qwen2.5-Math-7B的准确率从58.8%提升至90.0%，Qwen2.5-Math-1.5B从51.2%提升至87.8%，Phi3-mini-3.8B从41.4%提升至86.4%，均超越o1-preview。

rStar-Math通过三项创新方法实现： 1. 代码增强CoT数据合成方法 2. 过程奖励模型训练方法 3. 四轮自我思维深度进化

四轮自我进化中，每轮使用MCTS生成推理轨迹，不断优化策略和奖励模型。最终，747k数学题的准确率达到90.25%。

实验显示，rStar-Math显著提高了SLM的数学推理能力，即使在较小模型尺寸下也能达到与OpenAI o1相当甚至更好的性能。

原文链接

本文链接：https://kx.umi6.com/article/11477.html

转载请注明文章出处

Qwen2.5