标题:Qwen&清华团队发现:大模型强化学习仅用20%高熵token效果更优
近期,Qwen&清华LeapLab团队在arXiv发布了一项突破性研究成果。他们在强化学习训练大模型推理能力时发现,仅使用20%的高熵token即可实现最佳效果,甚至优于使用全部token的训练方式。这一发现挑战了传统的“二八法则”,表明大模型中80%的低熵token不仅可被舍弃,还可能产生负面影响。
研究团队在Qwen3-32B上验证了这一方法,取得了新的SOTA成绩:AIME’24达63.5分,AIME’25达56.7分,成为600B参数以下基模型训练的最佳表现。同时,最大响应长度从20k扩展至29k时,AIME’24分数进一步提升至68.1分。
研究揭示,大模型在链式思考推理时,token的熵分布呈现独特模式:超过50%的token熵值低于0.01,仅20%的token熵值高于0.672。高熵token被称为“分叉token”,如“wait”、“however”等,负责逻辑连接和推理方向的选择;而低熵token多为确定性较强的词缀或代码片段。实验显示,适度提高高熵token的解码温度能优化推理性能,反之则导致性能下降。
进一步研究发现,仅保留高熵token的策略梯度,屏蔽其余80%的梯度,不仅未降低性能,反而显著提升:Qwen3-32B在AIME’24和AIME’25上分别提升7.71分和11.04分,平均响应长度增加约1378个token。反向实验表明,仅用低熵token训练会导致性能急剧下降。
团队分析认为,高熵token有助于模型探索多种推理路径,而低熵token的过度确定性可能限制探索能力。此外,该方法展现出明显的规模效应,参数量越大,优势越显著。在数学任务上训练的模型,在编程任务中仍表现优异,这表明聚焦高熵token可能促进模型的泛化能力。
研究还发现,强化学习本质上是对基模型的精细调整,且调整策略偏向高熵token,使其熵值增幅更大。团队提出,高熵token可能是强化学习泛化能力的关键,而传统监督微调可能导致推理路径的灵活性丧失。此外,与熵奖励相比,clip-higher方法更适合提升高熵token的熵值。
论文链接:https://arxiv.org/abs/2506.01939
项目主页:https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/
.png)

-
2025-07-19 20:57:00
-
2025-07-19 18:55:37
-
2025-07-19 17:56:25