SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒

2025-02-09 16:48:35

梦境编程师

发布在

科普

阅读：1190

标题：SFT非必需！推理模型仅靠RL也能获得长思维链能力，清华CMU团队破解黑盒

清华、CMU和IN.AI团队研究发现，长CoT（思维链）的涌现与训练计算量增加有关，但其触发条件尚不明朗。他们通过SFT（监督微调）和RL（强化学习）两方面探究长CoT的机制和优化策略。

主要发现： 1. SFT非必需，但简化训练并提高效率。 2. 推理能力随计算量增加，但非必然。 3. 可验证奖励函数对长CoT至关重要。 4. 基础模型具备纠错能力，但需大量计算来激励。

团队使用Llama-3.1-8B模型，基于MATH-500等基准测试，发现长CoT SFT显著提升模型性能，且有更大扩展空间。相比之下，短CoT SFT的效益很快饱和。

研究还发现，长CoT SFT模型通过RL进一步改进，而短CoT模型改善有限。RL需特定奖励机制以稳定思维链增长，如引入余弦长度缩放奖励和重复惩罚。

团队还对比了两种长CoT数据整理方法，发现从涌现长CoT模型提炼的数据表现更佳，且可通过RL显著改进。

原文链接

本文链接：https://kx.umi6.com/article/12949.html

转载请注明文章出处

SFT

长思维链

分享至

打开微信扫一扫

内容投诉

生成图片

梦境编程师

780 文章

847923 浏览

24小时热文