1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化

无需标注数据、无需复杂奖励设计,仅用一条无标签数据和10步优化,「熵最小化」可能比强化学习更适合快速提升大语言模型性能。

强化学习(RL)近年来在大语言模型(LLM)微调中取得成功,但高昂的数据标注成本、复杂的奖励设计及漫长的训练周期限制了其广泛应用。Ubiquant研究团队提出一种简单高效的无监督方法——One Shot熵最小化(Entropy Minimization,EM),仅需一条无标签数据,训练10步内即可显著提升LLM性能,甚至超过使用成千上万数据的RL方法。

当前,LLM在特定复杂任务(如数学、物理或编程)上的微调主流方法是基于RL的后训练。然而,RL面临标注数据依赖性强、奖励函数设计复杂、计算开销大等问题。相比之下,EM无需标注数据或外部监督,仅依赖模型自身预测分布的熵进行优化。

具体而言,EM通过在每一步生成时最小化标记级别的熵,促使模型更加“自信”,从而强化其在预训练阶段已获得的能力。EM的核心公式涉及输入提示x生成响应序列y的条件熵,通过优化目标降低模型生成序列的熵值。

研究者采用基于模型表现方差的示例筛选方法,挑选模型表现不稳定的示例进行训练。实验显示,仅用一条高质量示例,EM方法在多个数学推理任务中显著提升了Qwen2.5-Math-7B的性能,准确率大幅提升。

EM与RL在Logits分布偏移上有明显差异:EM向右偏移,强化模型自信;RL向左偏移,受真实信号引导。这种差异影响了模型的采样策略和性能表现。

EM尤其适合尚未经过大量RL调优的基础模型或仅经过SFT的模型,能在数据稀缺场景下快速部署。尽管EM高效,但也存在训练不稳定性和过度自信的问题,未来需探索早停机制和减少随机性以提升效果。

One-shot EM为LLM后训练提供了一种无监督、低成本的替代方案,未来可通过与现有技术融合、探索跨领域应用及优化训练稳定性,进一步释放其潜力。

原文链接
本文链接:https://kx.umi6.com/article/19570.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
2025-06-01 13:19:53
上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题
2025-06-04 08:15:30
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
24小时热文
更多
扫一扫体验小程序