大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队提出了一种全新的经验管理和学习框架ExGRPO。通过科学识别、存储、筛选和学习高价值经验,该框架显著提升了大模型的推理能力。
传统强化学习方法(如RLVR)存在“经验浪费”问题:模型生成的推理轨迹仅使用一次便被丢弃,导致计算资源浪费和训练不稳定。ExGRPO则通过“经验回放池”存储成功案例,并动态分类为简单、中等和困难问题,优先挑选中等难度问题和低熵解题路径进行复习,避免了重复无效学习。
实验表明,ExGRPO在多个基准测试中性能显著优于传统方法,尤其在复杂任务(如AIME数学竞赛题)上提升更为明显。此外,它还能稳定训练初始能力较弱的模型,并持续增强强模型的表现。
研究揭示了经验管理的重要性:高质量经验应聚焦于中等难度问题和逻辑清晰的解法,而低质量经验可能导致错误习惯的固化。ExGRPO通过精细筛选机制切断了这种“滚雪球效应”。
正如强化学习先驱David Silver和Richard Sutton所言,“经验将成为AI能力提升的主要媒介”。ExGRPO为大模型提供了系统性的学习框架,开启了高效、稳定训练的新时代。
论文:https://arxiv.org/pdf/2510.02245
代码:https://github.com/ElliottYan/LUFFY/tree/main/ExGRPO
模型:https://huggingface.co/collections/rzzhan/exgrpo-68d8e302efdfe325187d5c96
原文链接
本文链接:https://kx.umi6.com/article/27198.html
转载请注明文章出处
相关推荐
.png)
换一换
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
姚班学霸、OpenAI姚顺雨:大模型下半场是产品的游戏
2025-04-17 17:47:23
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
小米最新大模型成果!罗福莉现身了
2025-10-17 16:21:28
面壁智能联创谈 DeepSeek 出圈:与 OpenAI o1 不开源有关,R1 模型创造了新的 ChatGPT 时刻
2025-02-06 09:27:16
图文并茂:DeepSeek R1 是怎么练成的
2025-02-18 11:11:33
OpenAI新模型被曝秘密训练中,o4会是什么样?
2025-06-10 18:54:49
AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
2025-04-09 21:08:08
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
2025-10-23 17:10:54
Gemini2.5弯道超车背后的灵魂人物
2025-06-05 11:52:48
非技术人10分钟读懂Deepseek R1
2025-02-14 18:44:39
591 文章
269189 浏览
24小时热文
更多

-
2025-10-23 21:15:29
-
2025-10-23 20:16:19
-
2025-10-23 20:15:12