NuerIPS唯一满分论文曝光,来自清华上交
近日,一篇来自清华大学和上海交通大学的论文在人工智能领域引发轰动,成为NuerIPS唯一获得满分评价的研究。这篇论文挑战了当前大模型推理能力提升的核心假设:真正决定推理上限的是基座模型本身,而非强化学习(RLVR)。研究还指出,蒸馏方法比强化学习更有望实现大模型的自我进化。
RLVR(可验证奖励的强化学习)近年来被广泛应用于大语言模型中,用于提升数学、编程和视觉推理等任务的表现。它因无需人工标注且能通过自动验证优化模型,被视为实现模型自我进化的关键路径。然而,这篇论文却颠覆了这一认知。研究团队通过实验发现,RLVR主要强化基座模型已有的推理路径,而非拓展新能力;随着采样次数增加,基座模型的表现甚至可能超越RLVR训练后的模型。这表明,基座模型的潜在推理能力可能被低估了。
论文采用了关键评估指标“pass@k”,即衡量模型在多次尝试中至少成功一次的概率。实验覆盖数学推理、代码生成和视觉推理三大领域,使用多个权威基准数据集进行测试。结果表明,RLVR在低采样场景下表现更优,但在高采样情况下,基座模型的能力逐渐显现。此外,蒸馏方法因其能接收教师模型的新推理模式,被认为更有可能突破基座模型的能力上限。
这项研究由清华大学LeapLab主导,团队包括博士生Yang Yue(乐洋)、Zhiqi Chen(陈志琦),以及自动化系副教授Gao Huang(黄高)等8位作者。黄高是经典卷积架构DenseNet的提出者,其工作曾获CVPR 2017最佳论文奖。团队强调,强化学习在特定场景仍有价值,但其作用可能被高估。
有趣的是,DeepSeek一年前的研究也曾提到类似现象,而这次清华上交的论文首次完整论证了这一结论。论文链接:https://limit-of-rlvr.github.io/
-
2025-11-12 16:19:47 -
2025-11-12 16:18:39 -
2025-11-12 16:17:29