SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”
PRISM团队 投稿
量子位 | 公众号 QbitAI
在多模态大模型(MLLM)的后训练中,行业普遍采用“先SFT,再RL”的两步范式。然而,香港科技大学(广州)、南洋理工大学、清华大学等机构的研究发现,SFT不仅未能为RL铺路,反而悄悄挖坑,导致模型性能下降。
研究显示,在7个主流多模态benchmark测试中,SFT后的模型性能显著下降。例如,Qwen3-VL-8B模型在SFT后准确率从63.3%降至58.1%,强化学习(RL)仅能将其恢复到基线水平。这意味着RL可能一直在“还债”,而非真正提升性能。
问题根源在于SFT引入的两类偏差:
1. 表面模仿:SFT优化目标是均匀的token级loss,导致模型学会“长得像”正确答案,而非“想得出”正确答案。
2. 感知与推理漂移:多模态场景下,视觉定位错误和逻辑推导失败被混为一谈,进一步加剧分布偏移。
现有RL算法无法修复这些偏差,因为它们专注于RL阶段内部问题,如采样效率和策略崩溃,而未解决SFT遗留的分布偏差。
PRISM提出了一种三阶段流水线:SFT → 分布对齐 (PRISM) → RLVR。其核心创新是中间的分布对齐阶段,通过混合专家判别器分别处理感知漂移和推理漂移,提供解耦的纠正信号。此外,PRISM采用黑盒蒸馏方法,无需访问教师模型logits,仅需API调用即可完成对齐。
实验表明,PRISM在Qwen3-VL的4B和8B模型上均取得显著提升,尤其在数学推理和通用视觉理解任务中表现优异。消融实验进一步验证了每个组件的重要性。
PRISM的出现揭示了SFT与RL之间的“隐形断层”,为多模态大模型后训练范式提供了关键补丁。让模型在推理任务上更进一步,未必需要更复杂算法或更多数据,只需在SFT和RL之间加入分布对齐步骤。
Arxiv:https://arxiv.org/abs/2604.28123
Github:https://github.com/XIAO4579/PRISM
-
2026-05-17 18:49:24 -
2026-05-17 17:50:08 -
2026-05-17 17:49:02