1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:清华与英伟达合作提出新算法:监督学习也能从错误中学习?

清华大学联合英伟达和斯坦福大学提出了一种名为NFT(Negative-aware FineTuning)的新监督学习方法。该方法基于RFT(Rejection FineTuning)算法,通过引入“隐式负向策略”来利用负向数据进行训练,从而提升模型的数学能力。

传统上,监督学习难以像强化学习那样进行“自我反思”,但NFT改变了这一点。它不仅避免了直接使用低质量数据,还通过构造一个隐式负向模型来间接优化正向模型。这一策略成功弥合了监督学习与强化学习之间的差距,使两者性能相当。

具体而言,NFT定义了一个在线强化学习流程:首先,语言模型生成大量数学问题的答案,并通过01奖励函数区分正确与错误答案;其次,利用原始模型和目标模型构建隐式负向策略;最后,在正确数据上直接监督训练,在错误数据上则通过隐式负向策略优化正向模型。令人惊讶的是,NFT的损失函数梯度与GRPO在On-Policy条件下的结果是等价的,这意味着GRPO中的人为经验设定可以被理论推导替代。

实验结果显示,NFT在不同规模的模型上均表现出色,尤其在大模型中负向反馈的作用更为显著。与其他方法相比,NFT在数学任务上的平均成绩最高,同时还能促进模型熵的增加,增强探索能力。这项研究揭示了监督学习与强化学习之间潜在的深层联系,为未来的研究提供了新的视角。

原文链接
本文链接:https://kx.umi6.com/article/20609.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
8B模型奥数成绩比肩GPT-4!上海AI Lab出品
2024-06-18 15:21:20
OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜:数学能力碾压 Claude 和谷歌 Gemini 模型,o1-mini 并列第一
2024-09-20 14:20:11
监督学习也能从错误中学习反思?!清华英伟达联合提出隐式负向策略爆炸提升数学能力
2025-06-22 14:17:41
24小时热文
更多
扫一扫体验小程序