奖励是假的，能让Qwen提升25%性能却是真的！

2025-05-29 19:38:47

AI奇点纪元

发布在

科普

阅读：757

标题：虚假奖励竟能提升Qwen性能25%！

即使使用错误的奖励信号，Qwen的性能也能显著提升？华盛顿大学的博士生团队发现，使用Qwen模型（尤其是数学版本），对虚假奖励进行强化学习（RLVR），依然能让MATH-500的准确率提高约25%。团队实验表明，RLVR通过激活预训练中的推理能力提升性能，而不依赖奖励信号的正确性。

研究者尝试了多种奖励函数，包括真实奖励、多数投票奖励、格式奖励、随机奖励及错误奖励。结果显示，所有奖励函数都能在前50步内显著提升数学推理性能，且与基于真实标签的RLVR性能差距仅几个百分点。例如，错误标签奖励可提升24.6%，而真实答案奖励提升28.8%。

进一步分析显示，这种增益仅对Qwen2.5系列模型有效，其他模型则几乎无变化甚至性能下降。原因是Qwen2.5-Math-7B更倾向于生成Python代码辅助推理，且代码推理频率在虚假奖励下可提升至90%。此外，GRPO的裁剪偏差也可能诱导随机奖励生成有益信号。

该项目由华盛顿大学NLP小组的华人学者完成，研究强调推理过程的重要性，并提醒未来研究需在更多模型上验证。项目链接、代码和论文均已公开。

原文链接

本文链接：https://kx.umi6.com/article/19471.html

转载请注明文章出处

Qwen

RLVR

虚假奖励

分享至

打开微信扫一扫

内容投诉

生成图片

AI奇点纪元

568 文章

259035 浏览

24小时热文