1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:人大高瓴赵鑫团队新作:拆解 RLVR,优化推理模型训练

正文:
大语言模型在数学题、任务规划等复杂任务中暴露出一个核心问题:会生成不等于会推理。尽管行业通过 RLHF 和奖励技术提升了模型表现,但“一本正经胡说八道”的现象仍普遍存在。人大高瓴学院赵鑫团队针对这一问题展开研究,提出了一种新的推理模型训练方法 A3PO,揭示了正负样本在训练中的不同作用机制。

研究发现,正样本主要“收缩”策略空间,强化已有正确路径,使模型更加确定;负样本则“扩张”策略空间,推动模型探索新路径。然而,两种极端方式均有局限:只用正样本容易导致过拟合,只用负样本则不稳定。结合两者(DAPO)效果最佳,但关键在于正负样本比例的平衡。实验表明,正负 advantage 比例约为 1:2 时,能兼顾收敛速度与探索能力。

进一步分析显示,并非所有 token 对训练同等重要。正样本中低概率但正确的 token 和负样本中高概率但错误的 token 是决定模型表现的关键点。A3PO 方法通过非对称加权设计,重点奖励冷门正确 token,惩罚自信错误 token,从而提升模型推理能力。实验表明,A3PO 在多个基准测试中显著优于现有方法,例如在 Qwen2.5-7B-Math 上,AIME24 和 AIME25 的得分分别从 27.6 和 21.4 提升至 31.5 和 24.8。

这项研究的意义在于将模糊的 RLVR 训练过程转化为清晰的机制框架,明确了正负样本的具体作用边界。它不仅为推理模型训练提供了新思路,也为大模型对齐和智能体决策中的强化学习指明了方向:抓住关键 token 和状态进行重点优化。

通讯作者赵鑫教授现任人大高瓴人工智能学院教授,长期从事信息检索与自然语言处理研究,发表论文 200 余篇,谷歌学术引用量超 1.8 万次。他牵头开发了开源工具 RecBole 和 TextBox,并获得多项学术荣誉。

论文地址:https://arxiv.org/pdf/2512.21625v1

原文链接
本文链接:https://kx.umi6.com/article/31837.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
NuerIPS唯一满分论文曝光,来自清华上交
2025-11-11 17:16:47
这些大神在Meta的论文看一篇少一篇了
2025-11-17 14:29:27
阿里通义团队开源 R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见
2025-03-11 19:46:02
奖励是假的,能让Qwen提升25%性能却是真的!
2025-05-29 19:38:47
PPIO首批上线DeepSeek-V4预览版,1M超长上下文能力开箱即用
2026-04-24 17:23:07
美团内测万亿级新一代大模型,全程基于国产算力集群训练
2026-04-24 12:12:33
行业景气度高位运行 光模块企业扩产忙
2026-04-23 07:55:30
DeepSeek-V4发布,华为云首发适配
2026-04-24 18:26:00
河南师傅,左手扳手,右手飞书,竟然能搞数据分析!
2026-04-23 23:34:55
Mobileye 2026财年一季度营收增长27%,自动驾驶商业化进程持续推进
2026-04-24 18:24:51
阶跃StepAudio 2.5 ASR上线 支持500TPS极速推理
2026-04-24 14:19:56
京东方申请注册AI工厂商标
2026-04-24 13:12:56
摩尔线程Day-0适配DeepSeek-V4
2026-04-24 18:28:12
24小时热文
更多
扫一扫体验小程序