1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

上海 AI Lab 提出了一种基于结果奖励的强化学习新范式,仅通过微调和基于结果反馈的强化学习,就能在不蒸馏超大模型的情况下,超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。

当前大模型数学推理任务面临三大难题:稀疏奖励困境、局部正确陷阱和规模依赖魔咒。研究团队重新设计了结果奖励强化学习算法,得出三点重要结论:对正样本进行模仿学习,对负样本进行偏好学习,对长序列进行关键步骤重点学习,从而无需依赖超大规模模型进行蒸馏。

团队提出新的策略优化框架OREAL,通过正负样本奖励重塑解决稀疏奖励困境,设计token重要性估计器跳出局部正确陷阱。在7B和32B模型上,仅使用4千条高质量训练样本,Oreal-7B和Oreal-32B分别在MATH-500上取得91.0和95.0的pass@1准确率,创下新纪录。

研究团队还发现起点模型和训练数据分布对最终模型效果很重要,并将整个RL训练过程的数据、起点模型和最终模型开源,以推动社区的公平比较和进一步研究。

原文链接
本文链接:https://kx.umi6.com/article/13486.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型
2025-06-23 17:25:48
清华 + 北大两部 DeepSeek 原版宝典新出炉!(附九部全集下载)
2025-02-28 21:28:54
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-03-08 11:48:22
2025上半年,AI Agent领域有什么变化和机会?
2025-07-11 08:33:06
文生图进入R1时代:港中文发布T2I-R1,让AI绘画“先推理再下笔”
2025-05-14 17:20:57
稚晖君机器人“葡萄缝针”神技再现江湖 这次是人形的
2025-03-11 23:55:21
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
DeepSeek开源新模型,数学推理能力大提升
2025-05-01 09:16:24
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
2025-04-23 11:57:26
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
2025-05-17 13:07:29
24小时热文
更多
扫一扫体验小程序