上海 AI Lab 提出了一种基于结果奖励的强化学习新范式,仅通过微调和基于结果反馈的强化学习,就能在不蒸馏超大模型的情况下,超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。
当前大模型数学推理任务面临三大难题:稀疏奖励困境、局部正确陷阱和规模依赖魔咒。研究团队重新设计了结果奖励强化学习算法,得出三点重要结论:对正样本进行模仿学习,对负样本进行偏好学习,对长序列进行关键步骤重点学习,从而无需依赖超大规模模型进行蒸馏。
团队提出新的策略优化框架OREAL,通过正负样本奖励重塑解决稀疏奖励困境,设计token重要性估计器跳出局部正确陷阱。在7B和32B模型上,仅使用4千条高质量训练样本,Oreal-7B和Oreal-32B分别在MATH-500上取得91.0和95.0的pass@1准确率,创下新纪录。
研究团队还发现起点模型和训练数据分布对最终模型效果很重要,并将整个RL训练过程的数据、起点模型和最终模型开源,以推动社区的公平比较和进一步研究。
原文链接
本文链接:https://kx.umi6.com/article/13486.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek新模型大揭秘,为何它能震动全球AI圈
2025-01-23 15:26:36
AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
2025-04-09 21:08:08
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
451 文章
82789 浏览
24小时热文
更多

-
2025-07-19 20:57:00
-
2025-07-19 18:55:37
-
2025-07-19 17:56:25