人大高瓴赵鑫团队新作：先拆掉 RLVR，再重建推理模型训练

2026-01-19 13:57:39

新智燎原

发布在

科普

阅读：682

标题：人大高瓴赵鑫团队新作：拆解 RLVR，优化推理模型训练

正文：
大语言模型在数学题、任务规划等复杂任务中暴露出一个核心问题：会生成不等于会推理。尽管行业通过 RLHF 和奖励技术提升了模型表现，但“一本正经胡说八道”的现象仍普遍存在。人大高瓴学院赵鑫团队针对这一问题展开研究，提出了一种新的推理模型训练方法 A3PO，揭示了正负样本在训练中的不同作用机制。

研究发现，正样本主要“收缩”策略空间，强化已有正确路径，使模型更加确定；负样本则“扩张”策略空间，推动模型探索新路径。然而，两种极端方式均有局限：只用正样本容易导致过拟合，只用负样本则不稳定。结合两者（DAPO）效果最佳，但关键在于正负样本比例的平衡。实验表明，正负 advantage 比例约为 1:2 时，能兼顾收敛速度与探索能力。

进一步分析显示，并非所有 token 对训练同等重要。正样本中低概率但正确的 token 和负样本中高概率但错误的 token 是决定模型表现的关键点。A3PO 方法通过非对称加权设计，重点奖励冷门正确 token，惩罚自信错误 token，从而提升模型推理能力。实验表明，A3PO 在多个基准测试中显著优于现有方法，例如在 Qwen2.5-7B-Math 上，AIME24 和 AIME25 的得分分别从 27.6 和 21.4 提升至 31.5 和 24.8。

这项研究的意义在于将模糊的 RLVR 训练过程转化为清晰的机制框架，明确了正负样本的具体作用边界。它不仅为推理模型训练提供了新思路，也为大模型对齐和智能体决策中的强化学习指明了方向：抓住关键 token 和状态进行重点优化。

通讯作者赵鑫教授现任人大高瓴人工智能学院教授，长期从事信息检索与自然语言处理研究，发表论文 200 余篇，谷歌学术引用量超 1.8 万次。他牵头开发了开源工具 RecBole 和 TextBox，并获得多项学术荣誉。

论文地址：https://arxiv.org/pdf/2512.21625v1

原文链接

本文链接：https://kx.umi6.com/article/31837.html

转载请注明文章出处

RLVR