1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Qwen&清华团队发现:大模型强化学习仅用20%高熵token效果更优

近期,Qwen&清华LeapLab团队在arXiv发布了一项突破性研究成果。他们在强化学习训练大模型推理能力时发现,仅使用20%的高熵token即可实现最佳效果,甚至优于使用全部token的训练方式。这一发现挑战了传统的“二八法则”,表明大模型中80%的低熵token不仅可被舍弃,还可能产生负面影响。

研究团队在Qwen3-32B上验证了这一方法,取得了新的SOTA成绩:AIME’24达63.5分,AIME’25达56.7分,成为600B参数以下基模型训练的最佳表现。同时,最大响应长度从20k扩展至29k时,AIME’24分数进一步提升至68.1分。

研究揭示,大模型在链式思考推理时,token的熵分布呈现独特模式:超过50%的token熵值低于0.01,仅20%的token熵值高于0.672。高熵token被称为“分叉token”,如“wait”、“however”等,负责逻辑连接和推理方向的选择;而低熵token多为确定性较强的词缀或代码片段。实验显示,适度提高高熵token的解码温度能优化推理性能,反之则导致性能下降。

进一步研究发现,仅保留高熵token的策略梯度,屏蔽其余80%的梯度,不仅未降低性能,反而显著提升:Qwen3-32B在AIME’24和AIME’25上分别提升7.71分和11.04分,平均响应长度增加约1378个token。反向实验表明,仅用低熵token训练会导致性能急剧下降。

团队分析认为,高熵token有助于模型探索多种推理路径,而低熵token的过度确定性可能限制探索能力。此外,该方法展现出明显的规模效应,参数量越大,优势越显著。在数学任务上训练的模型,在编程任务中仍表现优异,这表明聚焦高熵token可能促进模型的泛化能力。

研究还发现,强化学习本质上是对基模型的精细调整,且调整策略偏向高熵token,使其熵值增幅更大。团队提出,高熵token可能是强化学习泛化能力的关键,而传统监督微调可能导致推理路径的灵活性丧失。此外,与熵奖励相比,clip-higher方法更适合提升高熵token的熵值。

论文链接:https://arxiv.org/abs/2506.01939
项目主页:https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/

原文链接
本文链接:https://kx.umi6.com/article/19837.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
2025-06-06 17:35:06
纽约联储调查:人工智能应用加速扩张,但目前对就业影响有限
2025-09-05 00:10:35
OpenAI的00后“叛徒”正在碾压华尔街“老江湖”
2025-09-06 16:36:53
我的宝藏AI 浏览器被43亿“贱卖”了,这可能是最好的结局
2025-09-05 16:22:38
GPT-4o 见AV 女优的次数比“您好”还多2.6倍,AI 正在被中文互联网疯狂污染
2025-09-06 12:37:21
巴克莱银行:AI浪潮有望催生千亿美元以上级并购交易
2025-09-04 19:08:00
别只用Nano Banana 生图了,视频生成才是王炸组合,这些隐藏玩法真香
2025-09-05 12:19:55
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
2025-09-05 13:20:04
诈骗专家自己都差点被骗,新加坡反欺诈大会呼吁警惕二维码、AI 等新型骗术
2025-09-04 22:08:23
不藏了!华为麒麟9020芯片高调加持,三折叠只卖1万8
2025-09-04 18:06:04
中信建投:计算机板块上半年业绩持续改善 看好AI软件&硬件、信创等板块投资机会
2025-09-05 09:17:05
OpenAI杀入招聘市场:打造AI技能认证体系+人才对接平台
2025-09-05 06:12:15
24小时热文
更多
扫一扫体验小程序