1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

PRISM团队 投稿
量子位 | 公众号 QbitAI

在多模态大模型(MLLM)的后训练中,行业普遍采用“先SFT,再RL”的两步范式。然而,香港科技大学(广州)、南洋理工大学、清华大学等机构的研究发现,SFT不仅未能为RL铺路,反而悄悄挖坑,导致模型性能下降。

研究显示,在7个主流多模态benchmark测试中,SFT后的模型性能显著下降。例如,Qwen3-VL-8B模型在SFT后准确率从63.3%降至58.1%,强化学习(RL)仅能将其恢复到基线水平。这意味着RL可能一直在“还债”,而非真正提升性能。

问题根源在于SFT引入的两类偏差:
1. 表面模仿:SFT优化目标是均匀的token级loss,导致模型学会“长得像”正确答案,而非“想得出”正确答案。
2. 感知与推理漂移:多模态场景下,视觉定位错误和逻辑推导失败被混为一谈,进一步加剧分布偏移。

现有RL算法无法修复这些偏差,因为它们专注于RL阶段内部问题,如采样效率和策略崩溃,而未解决SFT遗留的分布偏差。

PRISM提出了一种三阶段流水线:SFT → 分布对齐 (PRISM) → RLVR。其核心创新是中间的分布对齐阶段,通过混合专家判别器分别处理感知漂移和推理漂移,提供解耦的纠正信号。此外,PRISM采用黑盒蒸馏方法,无需访问教师模型logits,仅需API调用即可完成对齐。

实验表明,PRISM在Qwen3-VL的4B和8B模型上均取得显著提升,尤其在数学推理和通用视觉理解任务中表现优异。消融实验进一步验证了每个组件的重要性。

PRISM的出现揭示了SFT与RL之间的“隐形断层”,为多模态大模型后训练范式提供了关键补丁。让模型在推理任务上更进一步,未必需要更复杂算法或更多数据,只需在SFT和RL之间加入分布对齐步骤。

Arxiv:https://arxiv.org/abs/2604.28123
Github:https://github.com/XIAO4579/PRISM

原文链接
本文链接:https://kx.umi6.com/article/35893.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
2025-04-23 11:52:51
上海人工智能实验室开源多模态大模型书生·万象3.0
2025-04-17 12:40:23
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
字节视觉-语言多模态大模型Seed VLM技术报告首次公开
2025-05-13 14:57:31
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
2024-06-21 17:23:05
OpenAI推出Prism 可用于撰写论文和协作研究
2026-01-28 10:18:55
重构AI在数字和物理世界的生产力,生数科技完成超6亿元A+轮融资
2026-02-06 03:28:59
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
2025-04-04 13:13:45
SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒
2025-02-09 16:48:35
阶跃星辰联合吉利首次开源 Step 系列多模态大模型,包含视频、语音两款模型
2025-02-18 11:13:42
小红书开源多模态大模型
2025-08-07 14:53:39
我国发布全球首个深海生境智能多模态大模型
2025-11-06 21:14:23
阶跃星辰首次开源Step系列多模态大模型
2025-02-18 10:17:17
24小时热文
更多
扫一扫体验小程序