1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:清华刘知远团队论文:强化学习能否教会大模型新能力?| ICLR 2026

正文:
随着大语言模型的规模和预训练强度不断提升,强化学习在后训练阶段的角色正发生变化。尽管它仍是提升推理和多步决策表现的关键技术,但越来越多的实验表明,强化学习的性能提升往往难以等同于“新能力的形成”。尤其是在 pass@k 等评测指标下,强化学习模型与基础模型的差距随采样数增加而缩小,这让人质疑强化学习是否只是对已有解法的筛选和重排,而非真正拓展模型能力边界。

为验证这一问题,清华大学孙茂松、刘知远团队提出了研究《From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones》。研究选择了一个高度可控的实验环境,聚焦于一个根本性问题:强化学习能否教会模型此前不具备的新能力?如果可以,这些能力是什么,在什么条件下被学习到,又是否具有跨任务泛化性?

研究设计了20余个随机命名的字符串操作函数,将“函数结果预测”作为任务,彻底排除预训练语料污染和语义联想的影响。核心对比两种能力:原子能力(预测单函数输出)和组合能力(预测多层复合函数输出)。通过监督微调(SFT),模型掌握了原子能力;随后在强化学习阶段,研究人员通过改变题目难度(单函数、二层嵌套函数等),观察模型在未见过的三层及以上组合任务上的表现。

结果显示,仅在单函数上进行强化学习的模型在三层及以上组合任务上的准确率几乎为零,而包含二层嵌套函数训练的模型在三层组合任务上的准确率可达30%,四层组合任务上仍保持15%。这表明模型学会了递归使用的组合策略,而非简单依赖记忆或偶然猜测。进一步对照实验发现,仅用监督学习无法实现类似能力,说明强化学习的结果驱动机制和探索过程是关键。

研究还通过跨任务实验验证了这种组合能力的通用性。例如,模型在A任务上学习组合能力后,可将其泛化至B任务,前提是模型已具备B任务的原子能力。此外,分析表明强化学习的优势主要体现在高难度组合任务中,而在简单任务中其作用更接近“重排”。

这项研究的意义不仅在于具体实验结果,更在于其对“强化学习是否能教会模型新能力”的争论给出了条件化结论:强化学习确实能促使模型获得新能力,但前提是模型已掌握原子技能,且训练任务设计得当。研究还提出了一种启发性的训练范式:监督学习用于掌握基本操作,强化学习则用于组织和调度已有能力,形成更高层次的推理结构。

研究团队背景强大,一作袁立凡和陈纬泽分别来自伊利诺伊大学香槟分校和清华大学,通讯作者包括刘知远、丁宁和崔淦渠等知名学者,他们在大语言模型和强化学习领域积累了丰富的研究成果。

论文地址:https://arxiv.org/pdf/2509.25123

原文链接
本文链接:https://kx.umi6.com/article/32779.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
上交博士最新思考:仅用两个问题讲清强化学习
2025-11-10 18:29:12
AI教父Hinton中国首次演讲实录:人类可能就是大语言模型
2025-07-26 17:44:18
从归因图到AI 的“生物学”:探索Claude3.5 Haiku 的内部机制“中”
2025-06-01 15:22:01
奥尔特曼:感受不到 GPT-5 变强,是因为你还不够「专业」
2025-10-05 20:24:55
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
2025-10-30 10:33:49
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
2026-02-06 20:12:11
亚马逊开建AGI实验室,一号位也是华人
2025-09-22 09:54:37
Meta人事巨震、AI教母站台 通往AGI之路遇上分岔路口
2025-11-15 10:46:28
Meta前高管警告:AI市场大概率会有一波调整
2025-10-16 20:00:09
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
2025-05-30 16:56:50
24小时热文
更多
扫一扫体验小程序