1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:清华刘知远团队论文:强化学习能否教会大模型新能力?| ICLR 2026

正文:
随着大语言模型的规模和预训练强度不断提升,强化学习在后训练阶段的角色正发生变化。尽管它仍是提升推理和多步决策表现的关键技术,但越来越多的实验表明,强化学习的性能提升往往难以等同于“新能力的形成”。尤其是在 pass@k 等评测指标下,强化学习模型与基础模型的差距随采样数增加而缩小,这让人质疑强化学习是否只是对已有解法的筛选和重排,而非真正拓展模型能力边界。

为验证这一问题,清华大学孙茂松、刘知远团队提出了研究《From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones》。研究选择了一个高度可控的实验环境,聚焦于一个根本性问题:强化学习能否教会模型此前不具备的新能力?如果可以,这些能力是什么,在什么条件下被学习到,又是否具有跨任务泛化性?

研究设计了20余个随机命名的字符串操作函数,将“函数结果预测”作为任务,彻底排除预训练语料污染和语义联想的影响。核心对比两种能力:原子能力(预测单函数输出)和组合能力(预测多层复合函数输出)。通过监督微调(SFT),模型掌握了原子能力;随后在强化学习阶段,研究人员通过改变题目难度(单函数、二层嵌套函数等),观察模型在未见过的三层及以上组合任务上的表现。

结果显示,仅在单函数上进行强化学习的模型在三层及以上组合任务上的准确率几乎为零,而包含二层嵌套函数训练的模型在三层组合任务上的准确率可达30%,四层组合任务上仍保持15%。这表明模型学会了递归使用的组合策略,而非简单依赖记忆或偶然猜测。进一步对照实验发现,仅用监督学习无法实现类似能力,说明强化学习的结果驱动机制和探索过程是关键。

研究还通过跨任务实验验证了这种组合能力的通用性。例如,模型在A任务上学习组合能力后,可将其泛化至B任务,前提是模型已具备B任务的原子能力。此外,分析表明强化学习的优势主要体现在高难度组合任务中,而在简单任务中其作用更接近“重排”。

这项研究的意义不仅在于具体实验结果,更在于其对“强化学习是否能教会模型新能力”的争论给出了条件化结论:强化学习确实能促使模型获得新能力,但前提是模型已掌握原子技能,且训练任务设计得当。研究还提出了一种启发性的训练范式:监督学习用于掌握基本操作,强化学习则用于组织和调度已有能力,形成更高层次的推理结构。

研究团队背景强大,一作袁立凡和陈纬泽分别来自伊利诺伊大学香槟分校和清华大学,通讯作者包括刘知远、丁宁和崔淦渠等知名学者,他们在大语言模型和强化学习领域积累了丰富的研究成果。

论文地址:https://arxiv.org/pdf/2509.25123

原文链接
本文链接:https://kx.umi6.com/article/32779.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-4o 见AV 女优的次数比“您好”还多2.6倍,AI 正在被中文互联网疯狂污染
2025-09-06 12:37:21
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了
2026-03-20 12:25:37
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
OpenAI 被曝正开发全新 AI 大语言模型:代号“大蒜”,性能超越谷歌 Gemini 3
2025-12-03 00:43:57
卡帕西:强化学习很糟糕,但其他所有方法都更糟
2025-10-18 15:34:39
deepseek关联公司公布大语言模型部署方法专利
2025-08-01 14:04:10
意识智能体:大模型的下一个进化方向?:计算意识理论综述II
2025-09-07 19:49:04
研究:用诗歌就能让 AI 说违禁内容,成功率达 62%
2025-12-01 08:55:57
中国科学院科学家首次证实:大语言模型能像人类一样“理解”事物
2025-06-11 10:10:26
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
2025-10-30 10:33:49
24小时热文
更多
扫一扫体验小程序