2025年10月,Thinking Machine发布了一项引发热议的研究成果,提出了一种结合强化学习和微调的创新方法——在线策略蒸馏(On-Policy Distillation)。该方法通过融合自主探索与密集监督,显著提升了小模型训练的性价比。实验表明,这种方法可将数学能力训练效率提升50-100倍,并有效解决AI‘灾难性遗忘’问题。例如,仅用150步训练便将8B小模型性能从60分提升至70分,计算成本降低9-30倍。此外,该技术还能在注入新知识的同时恢复通用能力,为AI终身学习提供了技术支持。研究由前OpenAI研究员Kevin Lu主导,目前已公开论文链接供进一步了解。
原文链接
本文链接:https://kx.umi6.com/article/27384.html
转载请注明文章出处
相关推荐
换一换
腾讯混元再引强将,庞天宇即将入职多模态模型团队负责强化学习前沿算法探索
2026-01-30 15:35:19
Gemini2.5弯道超车背后的灵魂人物
2025-06-05 11:52:48
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
2025-08-26 13:43:07
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
2025-07-24 16:09:58
从蛰伏到王炸,RL启示录
2025-03-25 19:11:14
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
为何强化学习火遍硅谷?AGI的关键一步
2025-08-07 15:55:40
OpenAI新模型被曝秘密训练中,o4会是什么样?
2025-06-10 18:54:49
姚班学霸、OpenAI姚顺雨:大模型下半场是产品的游戏
2025-04-17 17:47:23
清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026
2026-02-24 14:48:42
受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜
2025-03-17 12:37:44
653 文章
484783 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18