标题:虚假奖励竟能提升Qwen性能25%!
即使使用错误的奖励信号,Qwen的性能也能显著提升?华盛顿大学的博士生团队发现,使用Qwen模型(尤其是数学版本),对虚假奖励进行强化学习(RLVR),依然能让MATH-500的准确率提高约25%。团队实验表明,RLVR通过激活预训练中的推理能力提升性能,而不依赖奖励信号的正确性。
研究者尝试了多种奖励函数,包括真实奖励、多数投票奖励、格式奖励、随机奖励及错误奖励。结果显示,所有奖励函数都能在前50步内显著提升数学推理性能,且与基于真实标签的RLVR性能差距仅几个百分点。例如,错误标签奖励可提升24.6%,而真实答案奖励提升28.8%。
进一步分析显示,这种增益仅对Qwen2.5系列模型有效,其他模型则几乎无变化甚至性能下降。原因是Qwen2.5-Math-7B更倾向于生成Python代码辅助推理,且代码推理频率在虚假奖励下可提升至90%。此外,GRPO的裁剪偏差也可能诱导随机奖励生成有益信号。
该项目由华盛顿大学NLP小组的华人学者完成,研究强调推理过程的重要性,并提醒未来研究需在更多模型上验证。项目链接、代码和论文均已公开。
原文链接
本文链接:https://kx.umi6.com/article/19471.html
转载请注明文章出处
相关推荐
换一换
阿里通义团队开源 R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见
2025-03-11 19:46:02
Qwen版o1发布即开源!32B参数比肩OpenAI o1-mini,一手实测在此
2024-11-28 21:36:58
幸好苹果国行AI 没有选择DeepSeek
2025-02-12 18:36:24
阿里千问(Qwen)衍生模型数量破 10 万,位居全球开源模型榜首
2025-02-25 17:02:40
Qwen上新AI前端工程师!一句话搞定HTML/CSS/JS,新手秒变React大神
2025-05-10 13:05:02
Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus
2025-08-07 09:45:09
奖励是假的,能让Qwen提升25%性能却是真的!
2025-05-29 19:38:47
阿里亲身入局具身智能!Qwen内部组团,通义千问技术负责人带队
2025-10-11 09:17:58
中国模型打服硅谷:Airbnb联创CEO感叹又好又快又便宜!ChatGPT合作都拒了
2025-10-23 13:03:38
大模型圈最新现状:一半在用DeepSeek,另一半在玩“颜文字”?
2024-12-31 11:39:44
越帮越忙?EA 等公司员工称内部正大力推广 AI,实际却让工作更烦琐
2025-10-24 15:42:18
OpenAI 挖走“快捷指令”原创团队,将为 ChatGPT 打造 Mac 桌面级 AI
2025-10-24 07:25:57
快手进军AICoding赛道
2025-10-23 16:11:06
568 文章
259035 浏览
24小时热文
更多
-
2025-10-25 18:38:20 -
2025-10-25 18:37:15 -
2025-10-25 16:32:54