标题:SFT非必需!推理模型仅靠RL也能获得长思维链能力,清华CMU团队破解黑盒
清华、CMU和IN.AI团队研究发现,长CoT(思维链)的涌现与训练计算量增加有关,但其触发条件尚不明朗。他们通过SFT(监督微调)和RL(强化学习)两方面探究长CoT的机制和优化策略。
主要发现: 1. SFT非必需,但简化训练并提高效率。 2. 推理能力随计算量增加,但非必然。 3. 可验证奖励函数对长CoT至关重要。 4. 基础模型具备纠错能力,但需大量计算来激励。
团队使用Llama-3.1-8B模型,基于MATH-500等基准测试,发现长CoT SFT显著提升模型性能,且有更大扩展空间。相比之下,短CoT SFT的效益很快饱和。
研究还发现,长CoT SFT模型通过RL进一步改进,而短CoT模型改善有限。RL需特定奖励机制以稳定思维链增长,如引入余弦长度缩放奖励和重复惩罚。
团队还对比了两种长CoT数据整理方法,发现从涌现长CoT模型提炼的数据表现更佳,且可通过RL显著改进。
原文链接
本文链接:https://kx.umi6.com/article/12949.html
转载请注明文章出处
相关推荐
换一换
SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”
2026-05-17 12:36:43
MiniMax M1全球技术闭门会实录:RL、混合架构、长上下文的下一步
2025-07-22 13:32:06
CVPR 2026现场直击:CV与机器人的物理结界被彻底打破
2026-06-05 19:24:24
造谣小米员工破坏展车、AI伪造事故视频!两名网络用户公开道歉
2026-06-08 18:42:21
有人靠CPU把AI算力密度卷到了新高度
2026-06-05 22:17:47
舔狗AI和被预约的寿司郎
2026-06-05 00:34:31
戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界模型
2026-06-04 13:03:29
扣子3.0实测:手机就能远程遥控你电脑里的Agent
2026-06-04 09:58:01
AI“吹大”的美股泡沫有多大?高盛:确有过热 但未至历史极端水平
2026-06-08 16:35:40
英博数科亮相CCIG 2026,首次公开EBFlex私有化算力管理平台
2026-06-04 16:10:54
华为云发布Agentic AI系列新品 打造智能时代“硅基黑土地”
2026-06-05 19:12:13
高通点赞广汽埃安N60智驾大赛获亚军,文远知行WRD 3.0亮相高通峰会
2026-06-08 12:23:30
2030年AI耗水量可达9.3 万亿升:够13亿非洲人用一年!
2026-06-04 19:19:05
767 文章
680022 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41