标题:清华与英伟达合作提出新算法:监督学习也能从错误中学习?
清华大学联合英伟达和斯坦福大学提出了一种名为NFT(Negative-aware FineTuning)的新监督学习方法。该方法基于RFT(Rejection FineTuning)算法,通过引入“隐式负向策略”来利用负向数据进行训练,从而提升模型的数学能力。
传统上,监督学习难以像强化学习那样进行“自我反思”,但NFT改变了这一点。它不仅避免了直接使用低质量数据,还通过构造一个隐式负向模型来间接优化正向模型。这一策略成功弥合了监督学习与强化学习之间的差距,使两者性能相当。
具体而言,NFT定义了一个在线强化学习流程:首先,语言模型生成大量数学问题的答案,并通过01奖励函数区分正确与错误答案;其次,利用原始模型和目标模型构建隐式负向策略;最后,在正确数据上直接监督训练,在错误数据上则通过隐式负向策略优化正向模型。令人惊讶的是,NFT的损失函数梯度与GRPO在On-Policy条件下的结果是等价的,这意味着GRPO中的人为经验设定可以被理论推导替代。
实验结果显示,NFT在不同规模的模型上均表现出色,尤其在大模型中负向反馈的作用更为显著。与其他方法相比,NFT在数学任务上的平均成绩最高,同时还能促进模型熵的增加,增强探索能力。这项研究揭示了监督学习与强化学习之间潜在的深层联系,为未来的研究提供了新的视角。
原文链接
本文链接:https://kx.umi6.com/article/20609.html
转载请注明文章出处
相关推荐
.png)
换一换
谷歌杀回来了,新版Gemini跑分超o1登顶第一
2024-11-15 18:02:26
OpenAI 研究人员夸大 GPT-5 数学能力后删帖,遭杨立昆等业界人士批评
2025-10-19 08:45:17
Qwen2-Math 开源 AI 模型发布:阿里通义千问家族新成员,数学能力超 GPT-4o
2024-08-09 10:57:07
科大讯飞星火 X1 模型升级,数学能力全面对标 DeepSeek R1 和 OpenAI o1
2025-03-03 10:16:41
OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜:数学能力碾压 Claude 和谷歌 Gemini 模型,o1-mini 并列第一
2024-09-20 14:20:11
8B模型奥数成绩比肩GPT-4!上海AI Lab出品
2024-06-18 15:21:20
监督学习也能从错误中学习反思?!清华英伟达联合提出隐式负向策略爆炸提升数学能力
2025-06-22 14:17:41
上海新增2款已完成备案的生成式人工智能服务
2025-10-23 19:13:44
强脑科技在成都设新公司 含AI相关业务
2025-10-23 14:07:29
爱彼迎 CEO 布莱恩・切斯基“力挺”阿里通义千问:速度快、效率高、成本低
2025-10-23 12:03:18
快手进军“AI 编程”赛道,推出“工具 + 模型 + 平台”产品矩阵
2025-10-23 16:09:13
研究发现:强迫AI大量阅读社交媒体垃圾帖 会造成不可逆的脑损伤
2025-10-22 23:54:44
荣耀与比亚迪达成战略合作 双方将推进跨端生态与AI智能体融合
2025-10-22 15:48:12
519 文章
256282 浏览
24小时热文
更多

-
2025-10-23 21:15:29
-
2025-10-23 20:16:19
-
2025-10-23 20:15:12