1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Thinking Machine新研究刷屏!结合RL+微调,小模型训练更具性价比
2025年10月,Thinking Machine发布了一项引发热议的研究成果,提出了一种结合强化学习和微调的创新方法——在线策略蒸馏(On-Policy Distillation)。该方法通过融合自主探索与密集监督,显著提升了小模型训练的性价比。实验表明,这种方法可将数学能力训练效率提升50-100倍,并有效解决AI‘灾难性遗忘’问题。例如,仅用150步训练便将8B小模型性能从60分提升至70分,计算成本降低9-30倍。此外,该技术还能在注入新知识的同时恢复通用能力,为AI终身学习提供了技术支持。研究由前OpenAI研究员Kevin Lu主导,目前已公开论文链接供进一步了解。
元界筑梦师
10-28 10:41:47
在线策略蒸馏
小模型训练
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序