1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:人大高瓴赵鑫团队新作:拆解 RLVR,优化推理模型训练

正文:
大语言模型在数学题、任务规划等复杂任务中暴露出一个核心问题:会生成不等于会推理。尽管行业通过 RLHF 和奖励技术提升了模型表现,但“一本正经胡说八道”的现象仍普遍存在。人大高瓴学院赵鑫团队针对这一问题展开研究,提出了一种新的推理模型训练方法 A3PO,揭示了正负样本在训练中的不同作用机制。

研究发现,正样本主要“收缩”策略空间,强化已有正确路径,使模型更加确定;负样本则“扩张”策略空间,推动模型探索新路径。然而,两种极端方式均有局限:只用正样本容易导致过拟合,只用负样本则不稳定。结合两者(DAPO)效果最佳,但关键在于正负样本比例的平衡。实验表明,正负 advantage 比例约为 1:2 时,能兼顾收敛速度与探索能力。

进一步分析显示,并非所有 token 对训练同等重要。正样本中低概率但正确的 token 和负样本中高概率但错误的 token 是决定模型表现的关键点。A3PO 方法通过非对称加权设计,重点奖励冷门正确 token,惩罚自信错误 token,从而提升模型推理能力。实验表明,A3PO 在多个基准测试中显著优于现有方法,例如在 Qwen2.5-7B-Math 上,AIME24 和 AIME25 的得分分别从 27.6 和 21.4 提升至 31.5 和 24.8。

这项研究的意义在于将模糊的 RLVR 训练过程转化为清晰的机制框架,明确了正负样本的具体作用边界。它不仅为推理模型训练提供了新思路,也为大模型对齐和智能体决策中的强化学习指明了方向:抓住关键 token 和状态进行重点优化。

通讯作者赵鑫教授现任人大高瓴人工智能学院教授,长期从事信息检索与自然语言处理研究,发表论文 200 余篇,谷歌学术引用量超 1.8 万次。他牵头开发了开源工具 RecBole 和 TextBox,并获得多项学术荣誉。

论文地址:https://arxiv.org/pdf/2512.21625v1

原文链接
本文链接:https://kx.umi6.com/article/31837.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里通义团队开源 R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见
2025-03-11 19:46:02
奖励是假的,能让Qwen提升25%性能却是真的!
2025-05-29 19:38:47
人大高瓴赵鑫团队新作:先拆掉 RLVR,再重建推理模型训练
2026-01-19 13:57:39
这些大神在Meta的论文看一篇少一篇了
2025-11-17 14:29:27
NuerIPS唯一满分论文曝光,来自清华上交
2025-11-11 17:16:47
搞黄色成了AI的第一生产力
2026-01-19 18:08:17
马斯克:用于 Grok 的“Colossus 2”超级计算机已投入运行,全球首个吉瓦级训练集群
2026-01-17 23:52:09
小米运动健康App接入蚂蚁阿福 支持AI初步健康建议
2026-01-19 11:55:59
全球首个负载100斤的真实持续干活机器人,来自银河通用
2026-01-19 10:48:07
不再僵硬:机器人靠看视频学会超逼真嘴部动作
2026-01-19 22:18:00
上海“十五五”规划建议:推动人工智能全栈创新 加强高性能智算芯片、高质量语料、高效能智算集群协同发展
2026-01-19 07:20:56
国金证券:AI与“反内卷”或成2026年A股主线
2026-01-19 17:05:45
Cursor 一夜翻车:300 万代码写浏览器被打假,全网群嘲 AI 泔水
2026-01-17 16:37:14
24小时热文
更多
扫一扫体验小程序