2025年10月,Thinking Machine发布了一项引发热议的研究成果,提出了一种结合强化学习和微调的创新方法——在线策略蒸馏(On-Policy Distillation)。该方法通过融合自主探索与密集监督,显著提升了小模型训练的性价比。实验表明,这种方法可将数学能力训练效率提升50-100倍,并有效解决AI‘灾难性遗忘’问题。例如,仅用150步训练便将8B小模型性能从60分提升至70分,计算成本降低9-30倍。此外,该技术还能在注入新知识的同时恢复通用能力,为AI终身学习提供了技术支持。研究由前OpenAI研究员Kevin Lu主导,目前已公开论文链接供进一步了解。
原文链接
本文链接:https://kx.umi6.com/article/27384.html
转载请注明文章出处
相关推荐
换一换
为何强化学习火遍硅谷?AGI的关键一步
2025-08-07 15:55:40
超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品
2025-04-01 11:18:45
OpenAI 最新论文:o3 在 IOI 2024 严格规则下拿到 395.64 分达成金牌成就
2025-02-12 19:37:54
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
2025-03-20 19:41:21
突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新训练方法
2025-08-22 16:50:16
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
2025-08-26 13:43:07
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
2025-07-24 16:09:58
图灵奖的获奖者们,担心成为AI界的“奥本海默”
2025-03-10 15:42:20
强化学习之于 AI Agent,是灵魂、还是包袱?
2025-04-23 11:56:20
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
538 文章
291105 浏览
24小时热文
更多
-
2025-10-28 14:53:35 -
2025-10-28 14:52:38 -
2025-10-28 14:51:29