标题:清华与英伟达合作提出新算法:监督学习也能从错误中学习?
清华大学联合英伟达和斯坦福大学提出了一种名为NFT(Negative-aware FineTuning)的新监督学习方法。该方法基于RFT(Rejection FineTuning)算法,通过引入“隐式负向策略”来利用负向数据进行训练,从而提升模型的数学能力。
传统上,监督学习难以像强化学习那样进行“自我反思”,但NFT改变了这一点。它不仅避免了直接使用低质量数据,还通过构造一个隐式负向模型来间接优化正向模型。这一策略成功弥合了监督学习与强化学习之间的差距,使两者性能相当。
具体而言,NFT定义了一个在线强化学习流程:首先,语言模型生成大量数学问题的答案,并通过01奖励函数区分正确与错误答案;其次,利用原始模型和目标模型构建隐式负向策略;最后,在正确数据上直接监督训练,在错误数据上则通过隐式负向策略优化正向模型。令人惊讶的是,NFT的损失函数梯度与GRPO在On-Policy条件下的结果是等价的,这意味着GRPO中的人为经验设定可以被理论推导替代。
实验结果显示,NFT在不同规模的模型上均表现出色,尤其在大模型中负向反馈的作用更为显著。与其他方法相比,NFT在数学任务上的平均成绩最高,同时还能促进模型熵的增加,增强探索能力。这项研究揭示了监督学习与强化学习之间潜在的深层联系,为未来的研究提供了新的视角。
原文链接
本文链接:https://kx.umi6.com/article/20609.html
转载请注明文章出处
相关推荐
换一换
Qwen2-Math 开源 AI 模型发布:阿里通义千问家族新成员,数学能力超 GPT-4o
2024-08-09 10:57:07
监督学习也能从错误中学习反思?!清华英伟达联合提出隐式负向策略爆炸提升数学能力
2025-06-22 14:17:41
8B模型奥数成绩比肩GPT-4!上海AI Lab出品
2024-06-18 15:21:20
OpenAI 研究人员夸大 GPT-5 数学能力后删帖,遭杨立昆等业界人士批评
2025-10-19 08:45:17
OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜:数学能力碾压 Claude 和谷歌 Gemini 模型,o1-mini 并列第一
2024-09-20 14:20:11
科大讯飞星火 X1 模型升级,数学能力全面对标 DeepSeek R1 和 OpenAI o1
2025-03-03 10:16:41
谷歌杀回来了,新版Gemini跑分超o1登顶第一
2024-11-15 18:02:26
英国一地发生地震后,AI 生成“断桥”照片致 32 趟列车延误
2025-12-08 22:52:38
跨境电商的疑难杂症,被1688这个AI全包了…
2025-12-07 13:28:44
看完最新国产AI写的公众号文章,我慌了!
2025-12-08 21:48:04
加快发展新质生产力 上海自动驾驶测试道路总里程超5200公里
2025-12-07 13:29:51
广西“十五五”规划建议:打造面向东盟开放合作高能级平台
2025-12-07 10:24:46
机构:2026年全球800G以上光收发模块达近6300万组
2025-12-08 17:39:25
570 文章
357400 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57