SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

2026-05-17 12:36:43

智能涌动

发布在

科普

阅读：272

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

PRISM团队投稿
量子位 | 公众号 QbitAI

在多模态大模型（MLLM）的后训练中，行业普遍采用“先SFT，再RL”的两步范式。然而，香港科技大学（广州）、南洋理工大学、清华大学等机构的研究发现，SFT不仅未能为RL铺路，反而悄悄挖坑，导致模型性能下降。

研究显示，在7个主流多模态benchmark测试中，SFT后的模型性能显著下降。例如，Qwen3-VL-8B模型在SFT后准确率从63.3%降至58.1%，强化学习（RL）仅能将其恢复到基线水平。这意味着RL可能一直在“还债”，而非真正提升性能。

问题根源在于SFT引入的两类偏差：
1. 表面模仿：SFT优化目标是均匀的token级loss，导致模型学会“长得像”正确答案，而非“想得出”正确答案。
2. 感知与推理漂移：多模态场景下，视觉定位错误和逻辑推导失败被混为一谈，进一步加剧分布偏移。

现有RL算法无法修复这些偏差，因为它们专注于RL阶段内部问题，如采样效率和策略崩溃，而未解决SFT遗留的分布偏差。

PRISM提出了一种三阶段流水线：SFT → 分布对齐 (PRISM) → RLVR。其核心创新是中间的分布对齐阶段，通过混合专家判别器分别处理感知漂移和推理漂移，提供解耦的纠正信号。此外，PRISM采用黑盒蒸馏方法，无需访问教师模型logits，仅需API调用即可完成对齐。

实验表明，PRISM在Qwen3-VL的4B和8B模型上均取得显著提升，尤其在数学推理和通用视觉理解任务中表现优异。消融实验进一步验证了每个组件的重要性。

PRISM的出现揭示了SFT与RL之间的“隐形断层”，为多模态大模型后训练范式提供了关键补丁。让模型在推理任务上更进一步，未必需要更复杂算法或更多数据，只需在SFT和RL之间加入分布对齐步骤。

Arxiv：https://arxiv.org/abs/2604.28123
Github：https://github.com/XIAO4579/PRISM

原文链接

本文链接：https://kx.umi6.com/article/35893.html

转载请注明文章出处

Prism

SFT

多模态大模型

分享至

打开微信扫一扫

内容投诉

生成图片

智能涌动

739 文章

632800 浏览

24小时热文