NuerIPS唯一满分论文曝光，来自清华上交

2025-11-11 17:16:47

Oasis

发布在

科普

阅读：798

NuerIPS唯一满分论文曝光，来自清华上交

近日，一篇来自清华大学和上海交通大学的论文在人工智能领域引发轰动，成为NuerIPS唯一获得满分评价的研究。这篇论文挑战了当前大模型推理能力提升的核心假设：真正决定推理上限的是基座模型本身，而非强化学习（RLVR）。研究还指出，蒸馏方法比强化学习更有望实现大模型的自我进化。

RLVR（可验证奖励的强化学习）近年来被广泛应用于大语言模型中，用于提升数学、编程和视觉推理等任务的表现。它因无需人工标注且能通过自动验证优化模型，被视为实现模型自我进化的关键路径。然而，这篇论文却颠覆了这一认知。研究团队通过实验发现，RLVR主要强化基座模型已有的推理路径，而非拓展新能力；随着采样次数增加，基座模型的表现甚至可能超越RLVR训练后的模型。这表明，基座模型的潜在推理能力可能被低估了。

论文采用了关键评估指标“pass@k”，即衡量模型在多次尝试中至少成功一次的概率。实验覆盖数学推理、代码生成和视觉推理三大领域，使用多个权威基准数据集进行测试。结果表明，RLVR在低采样场景下表现更优，但在高采样情况下，基座模型的能力逐渐显现。此外，蒸馏方法因其能接收教师模型的新推理模式，被认为更有可能突破基座模型的能力上限。

这项研究由清华大学LeapLab主导，团队包括博士生Yang Yue（乐洋）、Zhiqi Chen（陈志琦），以及自动化系副教授Gao Huang（黄高）等8位作者。黄高是经典卷积架构DenseNet的提出者，其工作曾获CVPR 2017最佳论文奖。团队强调，强化学习在特定场景仍有价值，但其作用可能被高估。

有趣的是，DeepSeek一年前的研究也曾提到类似现象，而这次清华上交的论文首次完整论证了这一结论。论文链接：https://limit-of-rlvr.github.io/

原文链接

本文链接：https://kx.umi6.com/article/28176.html

转载请注明文章出处

NuerIPS