1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:SFT非必需!推理模型仅靠RL也能获得长思维链能力,清华CMU团队破解黑盒

清华、CMU和IN.AI团队研究发现,长CoT(思维链)的涌现与训练计算量增加有关,但其触发条件尚不明朗。他们通过SFT(监督微调)和RL(强化学习)两方面探究长CoT的机制和优化策略。

主要发现: 1. SFT非必需,但简化训练并提高效率。 2. 推理能力随计算量增加,但非必然。 3. 可验证奖励函数对长CoT至关重要。 4. 基础模型具备纠错能力,但需大量计算来激励。

团队使用Llama-3.1-8B模型,基于MATH-500等基准测试,发现长CoT SFT显著提升模型性能,且有更大扩展空间。相比之下,短CoT SFT的效益很快饱和。

研究还发现,长CoT SFT模型通过RL进一步改进,而短CoT模型改善有限。RL需特定奖励机制以稳定思维链增长,如引入余弦长度缩放奖励和重复惩罚。

团队还对比了两种长CoT数据整理方法,发现从涌现长CoT模型提炼的数据表现更佳,且可通过RL显著改进。

原文链接
本文链接:https://kx.umi6.com/article/12949.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”
2026-05-17 12:36:43
MiniMax M1全球技术闭门会实录:RL、混合架构、长上下文的下一步
2025-07-22 13:32:06
CVPR 2026现场直击:CV与机器人的物理结界被彻底打破
2026-06-05 19:24:24
造谣小米员工破坏展车、AI伪造事故视频!两名网络用户公开道歉
2026-06-08 18:42:21
有人靠CPU把AI算力密度卷到了新高度
2026-06-05 22:17:47
舔狗AI和被预约的寿司郎
2026-06-05 00:34:31
戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界模型
2026-06-04 13:03:29
扣子3.0实测:手机就能远程遥控你电脑里的Agent
2026-06-04 09:58:01
AI“吹大”的美股泡沫有多大?高盛:确有过热 但未至历史极端水平
2026-06-08 16:35:40
英博数科亮相CCIG 2026,首次公开EBFlex私有化算力管理平台
2026-06-04 16:10:54
华为云发布Agentic AI系列新品 打造智能时代“硅基黑土地”
2026-06-05 19:12:13
高通点赞广汽埃安N60智驾大赛获亚军,文远知行WRD 3.0亮相高通峰会
2026-06-08 12:23:30
2030年AI耗水量可达9.3 万亿升:够13亿非洲人用一年!
2026-06-04 19:19:05
24小时热文
更多
扫一扫体验小程序