不蒸馏R1也能超越DeepSeek，上海 AI Lab 用RL突破数学推理极限

2025-02-16 12:22:15

梦境编程师

发布在

科普

阅读：367

上海 AI Lab 提出了一种基于结果奖励的强化学习新范式，仅通过微调和基于结果反馈的强化学习，就能在不蒸馏超大模型的情况下，超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。

当前大模型数学推理任务面临三大难题：稀疏奖励困境、局部正确陷阱和规模依赖魔咒。研究团队重新设计了结果奖励强化学习算法，得出三点重要结论：对正样本进行模仿学习，对负样本进行偏好学习，对长序列进行关键步骤重点学习，从而无需依赖超大规模模型进行蒸馏。

团队提出新的策略优化框架OREAL，通过正负样本奖励重塑解决稀疏奖励困境，设计token重要性估计器跳出局部正确陷阱。在7B和32B模型上，仅使用4千条高质量训练样本，Oreal-7B和Oreal-32B分别在MATH-500上取得91.0和95.0的pass@1准确率，创下新纪录。

研究团队还发现起点模型和训练数据分布对最终模型效果很重要，并将整个RL训练过程的数据、起点模型和最终模型开源，以推动社区的公平比较和进一步研究。

原文链接

本文链接：https://kx.umi6.com/article/13486.html

转载请注明文章出处

上海AI Lab

强化学习

数学推理

分享至

打开微信扫一扫

内容投诉

生成图片

梦境编程师

560 文章

276642 浏览

24小时热文