标题:清华与英伟达合作提出新算法:监督学习也能从错误中学习?
清华大学联合英伟达和斯坦福大学提出了一种名为NFT(Negative-aware FineTuning)的新监督学习方法。该方法基于RFT(Rejection FineTuning)算法,通过引入“隐式负向策略”来利用负向数据进行训练,从而提升模型的数学能力。
传统上,监督学习难以像强化学习那样进行“自我反思”,但NFT改变了这一点。它不仅避免了直接使用低质量数据,还通过构造一个隐式负向模型来间接优化正向模型。这一策略成功弥合了监督学习与强化学习之间的差距,使两者性能相当。
具体而言,NFT定义了一个在线强化学习流程:首先,语言模型生成大量数学问题的答案,并通过01奖励函数区分正确与错误答案;其次,利用原始模型和目标模型构建隐式负向策略;最后,在正确数据上直接监督训练,在错误数据上则通过隐式负向策略优化正向模型。令人惊讶的是,NFT的损失函数梯度与GRPO在On-Policy条件下的结果是等价的,这意味着GRPO中的人为经验设定可以被理论推导替代。
实验结果显示,NFT在不同规模的模型上均表现出色,尤其在大模型中负向反馈的作用更为显著。与其他方法相比,NFT在数学任务上的平均成绩最高,同时还能促进模型熵的增加,增强探索能力。这项研究揭示了监督学习与强化学习之间潜在的深层联系,为未来的研究提供了新的视角。
原文链接
本文链接:https://kx.umi6.com/article/20609.html
转载请注明文章出处
相关推荐
换一换
谷歌杀回来了,新版Gemini跑分超o1登顶第一
2024-11-15 18:02:26
OpenAI 研究人员夸大 GPT-5 数学能力后删帖,遭杨立昆等业界人士批评
2025-10-19 08:45:17
科大讯飞星火 X1 模型升级,数学能力全面对标 DeepSeek R1 和 OpenAI o1
2025-03-03 10:16:41
8B模型奥数成绩比肩GPT-4!上海AI Lab出品
2024-06-18 15:21:20
Qwen2-Math 开源 AI 模型发布:阿里通义千问家族新成员,数学能力超 GPT-4o
2024-08-09 10:57:07
OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜:数学能力碾压 Claude 和谷歌 Gemini 模型,o1-mini 并列第一
2024-09-20 14:20:11
广东:支持基于开源鸿蒙的机器人等多领域操作系统生态发展
2026-04-22 17:30:14
谷歌云推出7.5亿美元基金 助力合作伙伴加速智能体人工智能开发
2026-04-22 20:29:22
Nature封面:机器人乒乓球干翻人类职业选手
2026-04-23 15:11:01
AI太烧钱!Meta裁员8000人再冻6000职位
2026-04-24 16:19:57
特斯拉CFO:今年将豪掷250亿美元 押注AI与机器人
2026-04-23 11:04:57
半壁华人!GPT Image 2团队曝光:无锡才俊带队,13人4个月封神
2026-04-23 16:14:21
Deepseek官网公布deepseek-v4接口文档
2026-04-24 11:10:00
702 文章
586015 浏览
24小时热文
更多
-
2026-04-24 16:22:09 -
2026-04-24 16:21:03 -
2026-04-24 16:19:57