标题:人大高瓴赵鑫团队新作:拆解 RLVR,优化推理模型训练
正文:
大语言模型在数学题、任务规划等复杂任务中暴露出一个核心问题:会生成不等于会推理。尽管行业通过 RLHF 和奖励技术提升了模型表现,但“一本正经胡说八道”的现象仍普遍存在。人大高瓴学院赵鑫团队针对这一问题展开研究,提出了一种新的推理模型训练方法 A3PO,揭示了正负样本在训练中的不同作用机制。
研究发现,正样本主要“收缩”策略空间,强化已有正确路径,使模型更加确定;负样本则“扩张”策略空间,推动模型探索新路径。然而,两种极端方式均有局限:只用正样本容易导致过拟合,只用负样本则不稳定。结合两者(DAPO)效果最佳,但关键在于正负样本比例的平衡。实验表明,正负 advantage 比例约为 1:2 时,能兼顾收敛速度与探索能力。
进一步分析显示,并非所有 token 对训练同等重要。正样本中低概率但正确的 token 和负样本中高概率但错误的 token 是决定模型表现的关键点。A3PO 方法通过非对称加权设计,重点奖励冷门正确 token,惩罚自信错误 token,从而提升模型推理能力。实验表明,A3PO 在多个基准测试中显著优于现有方法,例如在 Qwen2.5-7B-Math 上,AIME24 和 AIME25 的得分分别从 27.6 和 21.4 提升至 31.5 和 24.8。
这项研究的意义在于将模糊的 RLVR 训练过程转化为清晰的机制框架,明确了正负样本的具体作用边界。它不仅为推理模型训练提供了新思路,也为大模型对齐和智能体决策中的强化学习指明了方向:抓住关键 token 和状态进行重点优化。
通讯作者赵鑫教授现任人大高瓴人工智能学院教授,长期从事信息检索与自然语言处理研究,发表论文 200 余篇,谷歌学术引用量超 1.8 万次。他牵头开发了开源工具 RecBole 和 TextBox,并获得多项学术荣誉。
论文地址:https://arxiv.org/pdf/2512.21625v1
-
2026-01-19 23:22:26 -
2026-01-19 22:20:15 -
2026-01-19 22:19:10