挑战强化学习后训练霸权！全新无监督方法仅需1条数据+10步优化

2025-06-01 13:22:14

AI幻想空间站

发布在

科普

阅读：156

标题：挑战强化学习后训练霸权！全新无监督方法仅需1条数据+10步优化

无需标注数据、无需复杂奖励设计，仅用一条无标签数据和10步优化，「熵最小化」可能比强化学习更适合快速提升大语言模型性能。

强化学习（RL）近年来在大语言模型（LLM）微调中取得成功，但高昂的数据标注成本、复杂的奖励设计及漫长的训练周期限制了其广泛应用。Ubiquant研究团队提出一种简单高效的无监督方法——One Shot熵最小化（Entropy Minimization，EM），仅需一条无标签数据，训练10步内即可显著提升LLM性能，甚至超过使用成千上万数据的RL方法。

当前，LLM在特定复杂任务（如数学、物理或编程）上的微调主流方法是基于RL的后训练。然而，RL面临标注数据依赖性强、奖励函数设计复杂、计算开销大等问题。相比之下，EM无需标注数据或外部监督，仅依赖模型自身预测分布的熵进行优化。

具体而言，EM通过在每一步生成时最小化标记级别的熵，促使模型更加“自信”，从而强化其在预训练阶段已获得的能力。EM的核心公式涉及输入提示x生成响应序列y的条件熵，通过优化目标降低模型生成序列的熵值。

研究者采用基于模型表现方差的示例筛选方法，挑选模型表现不稳定的示例进行训练。实验显示，仅用一条高质量示例，EM方法在多个数学推理任务中显著提升了Qwen2.5-Math-7B的性能，准确率大幅提升。

EM与RL在Logits分布偏移上有明显差异：EM向右偏移，强化模型自信；RL向左偏移，受真实信号引导。这种差异影响了模型的采样策略和性能表现。

EM尤其适合尚未经过大量RL调优的基础模型或仅经过SFT的模型，能在数据稀缺场景下快速部署。尽管EM高效，但也存在训练不稳定性和过度自信的问题，未来需探索早停机制和减少随机性以提升效果。

One-shot EM为LLM后训练提供了一种无监督、低成本的替代方案，未来可通过与现有技术融合、探索跨领域应用及优化训练稳定性，进一步释放其潜力。

原文链接

本文链接：https://kx.umi6.com/article/19570.html

转载请注明文章出处

大语言模型