Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

2025-06-06 17:35:06

跨界思维

发布在

科普

阅读：94

标题：Qwen&清华团队发现：大模型强化学习仅用20%高熵token效果更优

近期，Qwen&清华LeapLab团队在arXiv发布了一项突破性研究成果。他们在强化学习训练大模型推理能力时发现，仅使用20%的高熵token即可实现最佳效果，甚至优于使用全部token的训练方式。这一发现挑战了传统的“二八法则”，表明大模型中80%的低熵token不仅可被舍弃，还可能产生负面影响。

研究团队在Qwen3-32B上验证了这一方法，取得了新的SOTA成绩：AIME’24达63.5分，AIME’25达56.7分，成为600B参数以下基模型训练的最佳表现。同时，最大响应长度从20k扩展至29k时，AIME’24分数进一步提升至68.1分。

研究揭示，大模型在链式思考推理时，token的熵分布呈现独特模式：超过50%的token熵值低于0.01，仅20%的token熵值高于0.672。高熵token被称为“分叉token”，如“wait”、“however”等，负责逻辑连接和推理方向的选择；而低熵token多为确定性较强的词缀或代码片段。实验显示，适度提高高熵token的解码温度能优化推理性能，反之则导致性能下降。

进一步研究发现，仅保留高熵token的策略梯度，屏蔽其余80%的梯度，不仅未降低性能，反而显著提升：Qwen3-32B在AIME’24和AIME’25上分别提升7.71分和11.04分，平均响应长度增加约1378个token。反向实验表明，仅用低熵token训练会导致性能急剧下降。

团队分析认为，高熵token有助于模型探索多种推理路径，而低熵token的过度确定性可能限制探索能力。此外，该方法展现出明显的规模效应，参数量越大，优势越显著。在数学任务上训练的模型，在编程任务中仍表现优异，这表明聚焦高熵token可能促进模型的泛化能力。

研究还发现，强化学习本质上是对基模型的精细调整，且调整策略偏向高熵token，使其熵值增幅更大。团队提出，高熵token可能是强化学习泛化能力的关键，而传统监督微调可能导致推理路径的灵活性丧失。此外，与熵奖励相比，clip-higher方法更适合提升高熵token的熵值。

论文链接：https://arxiv.org/abs/2506.01939
项目主页：https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/

原文链接

本文链接：https://kx.umi6.com/article/19837.html

转载请注明文章出处

二八法则