2025年10月,Thinking Machine发布了一项引发热议的研究成果,提出了一种结合强化学习和微调的创新方法——在线策略蒸馏(On-Policy Distillation)。该方法通过融合自主探索与密集监督,显著提升了小模型训练的性价比。实验表明,这种方法可将数学能力训练效率提升50-100倍,并有效解决AI‘灾难性遗忘’问题。例如,仅用150步训练便将8B小模型性能从60分提升至70分,计算成本降低9-30倍。此外,该技术还能在注入新知识的同时恢复通用能力,为AI终身学习提供了技术支持。研究由前OpenAI研究员Kevin Lu主导,目前已公开论文链接供进一步了解。
原文链接
本文链接:https://kx.umi6.com/article/27384.html
转载请注明文章出处
相关推荐
换一换
机器狗能打羽毛球:仅靠强化学习从 0 自学,还会自己移步
2025-05-30 17:53:28
Meta 推 LlamaRL 强化学习框架:全异步分布设计,训练 AI 模型提速 10.7 倍
2025-06-11 16:14:21
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
2025-04-23 11:57:26
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
奥尔特曼:感受不到 GPT-5 变强,是因为你还不够「专业」
2025-10-05 20:24:55
强化学习之于 AI Agent,是灵魂、还是包袱?
2025-04-23 11:56:20
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
2025-08-26 13:43:07
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
4o-mini华人领队也离职了,这次不怪小扎
2025-08-19 16:01:05
英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力
2025-05-14 15:16:49
50条数据解锁空间智能,RL视觉语言模型3D空间推理框架MetaSpatial |西北大学
2025-03-22 17:26:13
626 文章
437931 浏览
24小时热文
更多
-
2026-01-23 00:20:44 -
2026-01-22 23:18:34 -
2026-01-22 23:17:29