监督学习也能从错误中学习反思？！清华英伟达联合提出隐式负向策略爆炸提升数学能力

2025-06-22 14:17:41

跨界思维

发布在

科普

阅读：906

标题：清华与英伟达合作提出新算法：监督学习也能从错误中学习？

清华大学联合英伟达和斯坦福大学提出了一种名为NFT（Negative-aware FineTuning）的新监督学习方法。该方法基于RFT（Rejection FineTuning）算法，通过引入“隐式负向策略”来利用负向数据进行训练，从而提升模型的数学能力。

传统上，监督学习难以像强化学习那样进行“自我反思”，但NFT改变了这一点。它不仅避免了直接使用低质量数据，还通过构造一个隐式负向模型来间接优化正向模型。这一策略成功弥合了监督学习与强化学习之间的差距，使两者性能相当。

具体而言，NFT定义了一个在线强化学习流程：首先，语言模型生成大量数学问题的答案，并通过01奖励函数区分正确与错误答案；其次，利用原始模型和目标模型构建隐式负向策略；最后，在正确数据上直接监督训练，在错误数据上则通过隐式负向策略优化正向模型。令人惊讶的是，NFT的损失函数梯度与GRPO在On-Policy条件下的结果是等价的，这意味着GRPO中的人为经验设定可以被理论推导替代。

实验结果显示，NFT在不同规模的模型上均表现出色，尤其在大模型中负向反馈的作用更为显著。与其他方法相比，NFT在数学任务上的平均成绩最高，同时还能促进模型熵的增加，增强探索能力。这项研究揭示了监督学习与强化学习之间潜在的深层联系，为未来的研究提供了新的视角。

原文链接

本文链接：https://kx.umi6.com/article/20609.html

转载请注明文章出处

数学能力