1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:虚假奖励竟能提升Qwen性能25%!

即使使用错误的奖励信号,Qwen的性能也能显著提升?华盛顿大学的博士生团队发现,使用Qwen模型(尤其是数学版本),对虚假奖励进行强化学习(RLVR),依然能让MATH-500的准确率提高约25%。团队实验表明,RLVR通过激活预训练中的推理能力提升性能,而不依赖奖励信号的正确性。

研究者尝试了多种奖励函数,包括真实奖励、多数投票奖励、格式奖励、随机奖励及错误奖励。结果显示,所有奖励函数都能在前50步内显著提升数学推理性能,且与基于真实标签的RLVR性能差距仅几个百分点。例如,错误标签奖励可提升24.6%,而真实答案奖励提升28.8%。

进一步分析显示,这种增益仅对Qwen2.5系列模型有效,其他模型则几乎无变化甚至性能下降。原因是Qwen2.5-Math-7B更倾向于生成Python代码辅助推理,且代码推理频率在虚假奖励下可提升至90%。此外,GRPO的裁剪偏差也可能诱导随机奖励生成有益信号。

该项目由华盛顿大学NLP小组的华人学者完成,研究强调推理过程的重要性,并提醒未来研究需在更多模型上验证。项目链接、代码和论文均已公开。

原文链接
本文链接:https://kx.umi6.com/article/19471.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里通义团队开源 R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见
2025-03-11 19:46:02
Qwen上新AI前端工程师!一句话搞定HTML/CSS/JS,新手秒变React大神
2025-05-10 13:05:02
阿里千问(Qwen)衍生模型数量破 10 万,位居全球开源模型榜首
2025-02-25 17:02:40
24小时热文
更多
扫一扫体验小程序