1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:清华刘知远团队论文:强化学习能否教会大模型新能力?| ICLR 2026

正文:
随着大语言模型的规模和预训练强度不断提升,强化学习在后训练阶段的角色正发生变化。尽管它仍是提升推理和多步决策表现的关键技术,但越来越多的实验表明,强化学习的性能提升往往难以等同于“新能力的形成”。尤其是在 pass@k 等评测指标下,强化学习模型与基础模型的差距随采样数增加而缩小,这让人质疑强化学习是否只是对已有解法的筛选和重排,而非真正拓展模型能力边界。

为验证这一问题,清华大学孙茂松、刘知远团队提出了研究《From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones》。研究选择了一个高度可控的实验环境,聚焦于一个根本性问题:强化学习能否教会模型此前不具备的新能力?如果可以,这些能力是什么,在什么条件下被学习到,又是否具有跨任务泛化性?

研究设计了20余个随机命名的字符串操作函数,将“函数结果预测”作为任务,彻底排除预训练语料污染和语义联想的影响。核心对比两种能力:原子能力(预测单函数输出)和组合能力(预测多层复合函数输出)。通过监督微调(SFT),模型掌握了原子能力;随后在强化学习阶段,研究人员通过改变题目难度(单函数、二层嵌套函数等),观察模型在未见过的三层及以上组合任务上的表现。

结果显示,仅在单函数上进行强化学习的模型在三层及以上组合任务上的准确率几乎为零,而包含二层嵌套函数训练的模型在三层组合任务上的准确率可达30%,四层组合任务上仍保持15%。这表明模型学会了递归使用的组合策略,而非简单依赖记忆或偶然猜测。进一步对照实验发现,仅用监督学习无法实现类似能力,说明强化学习的结果驱动机制和探索过程是关键。

研究还通过跨任务实验验证了这种组合能力的通用性。例如,模型在A任务上学习组合能力后,可将其泛化至B任务,前提是模型已具备B任务的原子能力。此外,分析表明强化学习的优势主要体现在高难度组合任务中,而在简单任务中其作用更接近“重排”。

这项研究的意义不仅在于具体实验结果,更在于其对“强化学习是否能教会模型新能力”的争论给出了条件化结论:强化学习确实能促使模型获得新能力,但前提是模型已掌握原子技能,且训练任务设计得当。研究还提出了一种启发性的训练范式:监督学习用于掌握基本操作,强化学习则用于组织和调度已有能力,形成更高层次的推理结构。

研究团队背景强大,一作袁立凡和陈纬泽分别来自伊利诺伊大学香槟分校和清华大学,通讯作者包括刘知远、丁宁和崔淦渠等知名学者,他们在大语言模型和强化学习领域积累了丰富的研究成果。

论文地址:https://arxiv.org/pdf/2509.25123

原文链接
本文链接:https://kx.umi6.com/article/32779.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里AI TO C 业务启动近千人招聘
2025-08-13 16:39:25
Meta前高管警告:AI市场大概率会有一波调整
2025-10-16 20:00:09
不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件
2026-05-09 17:26:04
DeepSeek登《Nature》封面,梁文锋带队,首次回应争议
2025-09-18 13:54:10
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型推理成绩飙升
2025-10-13 18:02:32
中国科学院科学家首次证实:大语言模型能像人类一样“理解”事物
2025-06-11 10:10:26
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
苹果新研究:AI 不听录音,凭文本描述能零样本识别洗碗等 12 种活动
2025-11-22 08:06:08
研究揭示:大语言模型无法真正理解双关语
2025-11-24 18:08:37
混元OCR模型核心技术揭秘:统一框架、真端到端
2025-11-30 11:05:21
Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了
2026-03-20 12:25:37
8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队
2026-01-07 16:15:48
小米最新大模型成果!罗福莉现身了
2025-10-17 16:21:28
24小时热文
更多
扫一扫体验小程序