标题:挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
无需标注数据、无需复杂奖励设计,仅用一条无标签数据和10步优化,「熵最小化」可能比强化学习更适合快速提升大语言模型性能。
强化学习(RL)近年来在大语言模型(LLM)微调中取得成功,但高昂的数据标注成本、复杂的奖励设计及漫长的训练周期限制了其广泛应用。Ubiquant研究团队提出一种简单高效的无监督方法——One Shot熵最小化(Entropy Minimization,EM),仅需一条无标签数据,训练10步内即可显著提升LLM性能,甚至超过使用成千上万数据的RL方法。
当前,LLM在特定复杂任务(如数学、物理或编程)上的微调主流方法是基于RL的后训练。然而,RL面临标注数据依赖性强、奖励函数设计复杂、计算开销大等问题。相比之下,EM无需标注数据或外部监督,仅依赖模型自身预测分布的熵进行优化。
具体而言,EM通过在每一步生成时最小化标记级别的熵,促使模型更加“自信”,从而强化其在预训练阶段已获得的能力。EM的核心公式涉及输入提示x生成响应序列y的条件熵,通过优化目标降低模型生成序列的熵值。
研究者采用基于模型表现方差的示例筛选方法,挑选模型表现不稳定的示例进行训练。实验显示,仅用一条高质量示例,EM方法在多个数学推理任务中显著提升了Qwen2.5-Math-7B的性能,准确率大幅提升。
EM与RL在Logits分布偏移上有明显差异:EM向右偏移,强化模型自信;RL向左偏移,受真实信号引导。这种差异影响了模型的采样策略和性能表现。
EM尤其适合尚未经过大量RL调优的基础模型或仅经过SFT的模型,能在数据稀缺场景下快速部署。尽管EM高效,但也存在训练不稳定性和过度自信的问题,未来需探索早停机制和减少随机性以提升效果。
One-shot EM为LLM后训练提供了一种无监督、低成本的替代方案,未来可通过与现有技术融合、探索跨领域应用及优化训练稳定性,进一步释放其潜力。
.png)

-
2025-07-19 14:57:21
-
2025-07-19 14:56:08
-
2025-07-19 14:55:01