1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

上海 AI Lab 提出了一种基于结果奖励的强化学习新范式,仅通过微调和基于结果反馈的强化学习,就能在不蒸馏超大模型的情况下,超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。

当前大模型数学推理任务面临三大难题:稀疏奖励困境、局部正确陷阱和规模依赖魔咒。研究团队重新设计了结果奖励强化学习算法,得出三点重要结论:对正样本进行模仿学习,对负样本进行偏好学习,对长序列进行关键步骤重点学习,从而无需依赖超大规模模型进行蒸馏。

团队提出新的策略优化框架OREAL,通过正负样本奖励重塑解决稀疏奖励困境,设计token重要性估计器跳出局部正确陷阱。在7B和32B模型上,仅使用4千条高质量训练样本,Oreal-7B和Oreal-32B分别在MATH-500上取得91.0和95.0的pass@1准确率,创下新纪录。

研究团队还发现起点模型和训练数据分布对最终模型效果很重要,并将整个RL训练过程的数据、起点模型和最终模型开源,以推动社区的公平比较和进一步研究。

原文链接
本文链接:https://kx.umi6.com/article/13486.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
2025-05-08 09:23:53
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
2025-10-30 10:33:49
谷歌研究:合成数据使大模型数学推理能力提升八倍
2025-04-07 09:47:20
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
Gemini2.5弯道超车背后的灵魂人物
2025-06-05 11:52:48
DeepSeek-Prover-V2 登场:AI 数学推理新王者,88.9% 通过率设新标杆
2025-05-01 10:18:39
上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题
2025-06-04 08:15:30
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
2025-04-09 21:08:08
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理
2025-09-18 08:48:39
秒级生成百万级token!九章云极发布九章智算云Alaya NeW Cloud 2.0
2025-06-16 19:13:12
24小时热文
更多
扫一扫体验小程序