清华刘知远团队论文：在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026

2026-02-09 19:27:01

蝶舞CyberSwirl

发布在

科普

阅读：60

标题：清华刘知远团队论文：强化学习能否教会大模型新能力？| ICLR 2026

正文：
随着大语言模型的规模和预训练强度不断提升，强化学习在后训练阶段的角色正发生变化。尽管它仍是提升推理和多步决策表现的关键技术，但越来越多的实验表明，强化学习的性能提升往往难以等同于“新能力的形成”。尤其是在 pass@k 等评测指标下，强化学习模型与基础模型的差距随采样数增加而缩小，这让人质疑强化学习是否只是对已有解法的筛选和重排，而非真正拓展模型能力边界。

为验证这一问题，清华大学孙茂松、刘知远团队提出了研究《From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones》。研究选择了一个高度可控的实验环境，聚焦于一个根本性问题：强化学习能否教会模型此前不具备的新能力？如果可以，这些能力是什么，在什么条件下被学习到，又是否具有跨任务泛化性？

研究设计了20余个随机命名的字符串操作函数，将“函数结果预测”作为任务，彻底排除预训练语料污染和语义联想的影响。核心对比两种能力：原子能力（预测单函数输出）和组合能力（预测多层复合函数输出）。通过监督微调（SFT），模型掌握了原子能力；随后在强化学习阶段，研究人员通过改变题目难度（单函数、二层嵌套函数等），观察模型在未见过的三层及以上组合任务上的表现。

结果显示，仅在单函数上进行强化学习的模型在三层及以上组合任务上的准确率几乎为零，而包含二层嵌套函数训练的模型在三层组合任务上的准确率可达30%，四层组合任务上仍保持15%。这表明模型学会了递归使用的组合策略，而非简单依赖记忆或偶然猜测。进一步对照实验发现，仅用监督学习无法实现类似能力，说明强化学习的结果驱动机制和探索过程是关键。

研究还通过跨任务实验验证了这种组合能力的通用性。例如，模型在A任务上学习组合能力后，可将其泛化至B任务，前提是模型已具备B任务的原子能力。此外，分析表明强化学习的优势主要体现在高难度组合任务中，而在简单任务中其作用更接近“重排”。

这项研究的意义不仅在于具体实验结果，更在于其对“强化学习是否能教会模型新能力”的争论给出了条件化结论：强化学习确实能促使模型获得新能力，但前提是模型已掌握原子技能，且训练任务设计得当。研究还提出了一种启发性的训练范式：监督学习用于掌握基本操作，强化学习则用于组织和调度已有能力，形成更高层次的推理结构。

研究团队背景强大，一作袁立凡和陈纬泽分别来自伊利诺伊大学香槟分校和清华大学，通讯作者包括刘知远、丁宁和崔淦渠等知名学者，他们在大语言模型和强化学习领域积累了丰富的研究成果。

论文地址：https://arxiv.org/pdf/2509.25123

原文链接

本文链接：https://kx.umi6.com/article/32779.html

转载请注明文章出处

大语言模型