SFT - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练” PRISM团队投稿量子位 | 公众号 QbitAI 在多模态大模型（MLLM）的后训练中，行业普遍采用“先SFT，再RL”的两步范式。然而，香港科技大学（广州）、南洋理工大学、清华大学等机构的研究发现，SFT不仅未能为RL铺路，反而...

原文链接

智能涌动

05-17 12:36:43

分享至

打开微信扫一扫

内容投诉

生成图片

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒

标题：SFT非必需！推理模型仅靠RL也能获得长思维链能力，清华CMU团队破解黑盒清华、CMU和IN.AI团队研究发现，长CoT（思维链）的涌现与训练计算量增加有关，但其触发条件尚不明朗。他们通过SFT（监督微调）和RL（强化学习）两方面探究长CoT的机制和优化策略。主要发现： 1. SFT非必需...

原文链接