标题:虚假奖励竟能提升Qwen性能25%!
即使使用错误的奖励信号,Qwen的性能也能显著提升?华盛顿大学的博士生团队发现,使用Qwen模型(尤其是数学版本),对虚假奖励进行强化学习(RLVR),依然能让MATH-500的准确率提高约25%。团队实验表明,RLVR通过激活预训练中的推理能力提升性能,而不依赖奖励信号的正确性。
研究者尝试了多种奖励函数,包括真实奖励、多数投票奖励、格式奖励、随机奖励及错误奖励。结果显示,所有奖励函数都能在前50步内显著提升数学推理性能,且与基于真实标签的RLVR性能差距仅几个百分点。例如,错误标签奖励可提升24.6%,而真实答案奖励提升28.8%。
进一步分析显示,这种增益仅对Qwen2.5系列模型有效,其他模型则几乎无变化甚至性能下降。原因是Qwen2.5-Math-7B更倾向于生成Python代码辅助推理,且代码推理频率在虚假奖励下可提升至90%。此外,GRPO的裁剪偏差也可能诱导随机奖励生成有益信号。
该项目由华盛顿大学NLP小组的华人学者完成,研究强调推理过程的重要性,并提醒未来研究需在更多模型上验证。项目链接、代码和论文均已公开。
原文链接
本文链接:https://kx.umi6.com/article/19471.html
转载请注明文章出处
相关推荐
.png)
换一换
阿里通义团队开源 R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见
2025-03-11 19:46:02
Qwen上新AI前端工程师!一句话搞定HTML/CSS/JS,新手秒变React大神
2025-05-10 13:05:02
阿里千问(Qwen)衍生模型数量破 10 万,位居全球开源模型榜首
2025-02-25 17:02:40
454 文章
61244 浏览
24小时热文
更多

-
2025-07-20 08:01:35
-
2025-07-19 22:57:32
-
2025-07-19 21:58:20