1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

NuerIPS唯一满分论文曝光,来自清华上交

近日,一篇来自清华大学和上海交通大学的论文在人工智能领域引发轰动,成为NuerIPS唯一获得满分评价的研究。这篇论文挑战了当前大模型推理能力提升的核心假设:真正决定推理上限的是基座模型本身,而非强化学习(RLVR)。研究还指出,蒸馏方法比强化学习更有望实现大模型的自我进化。

RLVR(可验证奖励的强化学习)近年来被广泛应用于大语言模型中,用于提升数学、编程和视觉推理等任务的表现。它因无需人工标注且能通过自动验证优化模型,被视为实现模型自我进化的关键路径。然而,这篇论文却颠覆了这一认知。研究团队通过实验发现,RLVR主要强化基座模型已有的推理路径,而非拓展新能力;随着采样次数增加,基座模型的表现甚至可能超越RLVR训练后的模型。这表明,基座模型的潜在推理能力可能被低估了。

论文采用了关键评估指标“pass@k”,即衡量模型在多次尝试中至少成功一次的概率。实验覆盖数学推理、代码生成和视觉推理三大领域,使用多个权威基准数据集进行测试。结果表明,RLVR在低采样场景下表现更优,但在高采样情况下,基座模型的能力逐渐显现。此外,蒸馏方法因其能接收教师模型的新推理模式,被认为更有可能突破基座模型的能力上限。

这项研究由清华大学LeapLab主导,团队包括博士生Yang Yue(乐洋)、Zhiqi Chen(陈志琦),以及自动化系副教授Gao Huang(黄高)等8位作者。黄高是经典卷积架构DenseNet的提出者,其工作曾获CVPR 2017最佳论文奖。团队强调,强化学习在特定场景仍有价值,但其作用可能被高估。

有趣的是,DeepSeek一年前的研究也曾提到类似现象,而这次清华上交的论文首次完整论证了这一结论。论文链接:https://limit-of-rlvr.github.io/

原文链接
本文链接:https://kx.umi6.com/article/28176.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI慢思考蒸馏进快思考,Llama2升至GPT4水平,不写过程也能做对题
2024-07-12 13:03:40
NuerIPS唯一满分论文曝光,来自清华上交
2025-11-11 17:16:47
OpenAI:有证据表明 DeepSeek 使用了我们的模型进行训练
2025-01-29 19:13:30
奖励是假的,能让Qwen提升25%性能却是真的!
2025-05-29 19:38:47
DeepSeek首次回应蒸馏OpenAI质疑 :没有故意加入合成数据
2025-09-18 14:54:07
被曝蒸馏DeepSeek还造假!欧版OpenAI塌方了
2025-08-14 16:57:45
阿里通义团队开源 R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见
2025-03-11 19:46:02
DeepSeek「盗窃」OpenAI?更像是贼喊捉贼
2025-02-12 11:23:22
成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏
2025-02-07 08:47:13
OpenAI宣称DeepSeek违规“蒸馏”,但没有给出证据
2025-01-30 10:25:54
AI如何让我开始为软件买单?
2025-11-12 15:07:25
清仓英伟达加码OpenAI?投资者不买账 软银一度跳水10%
2025-11-12 13:04:09
LeCun离职,Meta市值应声蒸发1400亿
2025-11-12 08:53:31
24小时热文
更多
扫一扫体验小程序