RLVR - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

人大高瓴赵鑫团队新作：先拆掉 RLVR，再重建推理模型训练

标题：人大高瓴赵鑫团队新作：拆解 RLVR，优化推理模型训练正文：大语言模型在数学题、任务规划等复杂任务中暴露出一个核心问题：会生成不等于会推理。尽管行业通过 RLHF 和奖励技术提升了模型表现，但“一本正经胡说八道”的现象仍普遍存在。人大高瓴学院赵鑫团队针对这一问题展开研究，提出了一种新的...

原文链接

新智燎原

01-19 13:57:39

RLVR

正样本

负样本

分享至

打开微信扫一扫

内容投诉

生成图片

这些大神在Meta的论文看一篇少一篇了

正文：2025年11月17日，前Meta研究员田渊栋团队发布了一篇关于大模型强化学习（RL）训练现象的研究论文。研究聚焦于RL训练虽显著提升性能，却仅改变极少数参数的奇特现象。论文提出‘三门理论’，揭示了RL参数更新背后的深层机制：KL锚定限制漂移，模型几何引导低曲率方向优化，bfloat16精度过滤微小变化。实验表明，RL更新稀疏度高达36%-92%，远超监督微调（SFT）的0.6%-18.8%。此外，研究发现传统参数高效微调方法在RL中效果不佳，主成分权重更新常导致不稳定。论文为RL算法设计提供了新思路。

原文链接

蝶舞CyberSwirl

11-17 14:29:27

RLVR

三门理论

田渊栋

分享至

打开微信扫一扫

内容投诉

生成图片

NuerIPS唯一满分论文曝光，来自清华上交

NuerIPS唯一满分论文曝光，来自清华上交近日，一篇来自清华大学和上海交通大学的论文在人工智能领域引发轰动，成为NuerIPS唯一获得满分评价的研究。这篇论文挑战了当前大模型推理能力提升的核心假设：真正决定推理上限的是基座模型本身，而非强化学习（RLVR）。研究还指出，蒸馏方法比强化学习更有望实...

原文链接

Oasis

11-11 17:16:47

NuerIPS

RLVR

蒸馏

分享至

打开微信扫一扫

内容投诉

生成图片

奖励是假的，能让Qwen提升25%性能却是真的！

标题：虚假奖励竟能提升Qwen性能25%！即使使用错误的奖励信号，Qwen的性能也能显著提升？华盛顿大学的博士生团队发现，使用Qwen模型（尤其是数学版本），对虚假奖励进行强化学习（RLVR），依然能让MATH-500的准确率提高约25%。团队实验表明，RLVR通过激活预训练中的推理能力提升性能，...

原文链接

AI奇点纪元

05-29 19:38:47

Qwen

RLVR

虚假奖励

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义团队开源 R1-Omni：多模态模型 + RLVR，让各模态作用清晰可见

阿里通义团队于3月11日推出R1-Omni模型，该模型结合了强化学习（RLVR）与多模态技术，尤其适用于复杂全模态场景。R1-Omni通过增强透明性，使得音频和视频信息的作用更加清晰可见。在情绪识别等任务中，R1-Omni能明确展示哪些模态信息对特定判断至关重要。实验结果显示，相比原始基线模型，R1-Omni在同分布测试集上的表现提升了超过35%，而在不同分布测试集上，其泛化能力同样出色。R1-Omni开源地址已公布，包括论文、Github及模型下载链接。

原文链接