综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年10月,Thinking Machine发布了一项引发热议的研究成果,提出了一种结合强化学习和微调的创新方法——在线策略蒸馏(On-Policy Distillation)。该方法通过融合自主探索与密集监督,显著提升了小模型训练的性价比。实验表明,这种方法可将数学能力训练效率提升50-100倍,并有效解决AI‘灾难性遗忘’问题。例如,仅用150步训练便将8B小模型性能从60分提升至70分,计算成本降低9-30倍。此外,该技术还能在注入新知识的同时恢复通用能力,为AI终身学习提供了技术支持。研究由前OpenAI研究员Kevin Lu主导,目前已公开论文链接供进一步了解。
原文链接
加载更多
暂无内容