标题:SFT非必需!推理模型仅靠RL也能获得长思维链能力,清华CMU团队破解黑盒
清华、CMU和IN.AI团队研究发现,长CoT(思维链)的涌现与训练计算量增加有关,但其触发条件尚不明朗。他们通过SFT(监督微调)和RL(强化学习)两方面探究长CoT的机制和优化策略。
主要发现: 1. SFT非必需,但简化训练并提高效率。 2. 推理能力随计算量增加,但非必然。 3. 可验证奖励函数对长CoT至关重要。 4. 基础模型具备纠错能力,但需大量计算来激励。
团队使用Llama-3.1-8B模型,基于MATH-500等基准测试,发现长CoT SFT显著提升模型性能,且有更大扩展空间。相比之下,短CoT SFT的效益很快饱和。
研究还发现,长CoT SFT模型通过RL进一步改进,而短CoT模型改善有限。RL需特定奖励机制以稳定思维链增长,如引入余弦长度缩放奖励和重复惩罚。
团队还对比了两种长CoT数据整理方法,发现从涌现长CoT模型提炼的数据表现更佳,且可通过RL显著改进。
原文链接
本文链接:https://kx.umi6.com/article/12949.html
转载请注明文章出处
相关推荐
换一换
MiniMax M1全球技术闭门会实录:RL、混合架构、长上下文的下一步
2025-07-22 13:32:06
摩尔线程Day-0适配DeepSeek-V4
2026-04-24 18:28:12
真有人做AI小猫啊?!生产力和情绪价值都拉满了
2026-04-24 17:21:57
千问总裁吴嘉:“AI办事”对外开放 首家接入东方航空
2026-04-23 11:02:47
Coordination Engineering关键一环,JiuwenClaw再发布Team Skills技能新范式
2026-04-24 15:16:25
赛力斯申请注册天行平台商标
2026-04-23 14:10:41
DeepSeek:预计下半年昇腾950超节点批量上市后 V4-Pro模型价格会大幅下调
2026-04-24 14:16:39
挖漏洞何必Mythos,国产智能体早跑通了
2026-04-23 08:53:48
公募基金一季度加仓科技制造 减持信息技术和金融板块
2026-04-23 07:54:20
豆神教育联合微软Azure推出AI短剧平台
2026-04-24 09:05:36
腾讯云TokenHub上架DeepSeek-V4
2026-04-24 16:22:09
国家知识产权局:人工智能、芯片、脑机接口纳入“快保护”通道
2026-04-24 12:10:22
SpaceX受邀加入开发“金穹顶”软件的行业团队
2026-04-23 03:43:35
746 文章
599238 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17