Thinking Machine新研究刷屏！结合RL+微调，小模型训练更具性价比

2025-10-28 10:41:47

元界筑梦师

发布在

快讯

阅读：202

2025年10月，Thinking Machine发布了一项引发热议的研究成果，提出了一种结合强化学习和微调的创新方法——在线策略蒸馏（On-Policy Distillation）。该方法通过融合自主探索与密集监督，显著提升了小模型训练的性价比。实验表明，这种方法可将数学能力训练效率提升50-100倍，并有效解决AI‘灾难性遗忘’问题。例如，仅用150步训练便将8B小模型性能从60分提升至70分，计算成本降低9-30倍。此外，该技术还能在注入新知识的同时恢复通用能力，为AI终身学习提供了技术支持。研究由前OpenAI研究员Kevin Lu主导，目前已公开论文链接供进一步了解。

原文链接

本文链接：https://kx.umi6.com/article/27384.html

转载请注明文章出处

在线策略蒸馏