上海 AI Lab 提出了一种基于结果奖励的强化学习新范式,仅通过微调和基于结果反馈的强化学习,就能在不蒸馏超大模型的情况下,超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。
当前大模型数学推理任务面临三大难题:稀疏奖励困境、局部正确陷阱和规模依赖魔咒。研究团队重新设计了结果奖励强化学习算法,得出三点重要结论:对正样本进行模仿学习,对负样本进行偏好学习,对长序列进行关键步骤重点学习,从而无需依赖超大规模模型进行蒸馏。
团队提出新的策略优化框架OREAL,通过正负样本奖励重塑解决稀疏奖励困境,设计token重要性估计器跳出局部正确陷阱。在7B和32B模型上,仅使用4千条高质量训练样本,Oreal-7B和Oreal-32B分别在MATH-500上取得91.0和95.0的pass@1准确率,创下新纪录。
研究团队还发现起点模型和训练数据分布对最终模型效果很重要,并将整个RL训练过程的数据、起点模型和最终模型开源,以推动社区的公平比较和进一步研究。
原文链接
本文链接:https://kx.umi6.com/article/13486.html
转载请注明文章出处
相关推荐
换一换
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
2025-05-23 13:51:09
强化学习之于 AI Agent,是灵魂、还是包袱?
2025-04-23 11:56:20
字节Seed发布GR-RL 首次实现真机强化学习穿鞋带
2025-12-02 14:21:13
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型
2025-06-05 15:52:55
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
635 文章
384559 浏览
24小时热文
更多
-
2025-12-08 20:48:29 -
2025-12-08 20:47:34 -
2025-12-08 20:45:30