1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优

中兴通讯AIM团队投稿
量子位 | 公众号 QbitAI

一项被AAAI 2026接收的研究,针对多模态大模型后训练的难题提出全新解决方案。研究发现,在视觉推理与感知任务中,仅用中等和困难样本训练、完全跳过SFT(监督微调)的GRPO-only范式,性能全面超越传统“SFT+RL”方法。例如,MathVista得分68.3,OCRBench达77.8,MMMU提升0.107,MMStar提升0.083。实验表明,样本难度比训练范式更重要,SFT并非RL的必要前置步骤。

这项由中南大学与中兴通讯团队完成的研究,首次系统性验证了仅靠强化学习(GRPO)即可优化多模态能力,并提出了两种难度量化策略:PISM(渐进式图像语义掩码)和CMAB(跨模态注意力平衡)。这些方法解决了多模态数据中长期存在的两大痛点:缺乏可量化的样本难度指标,以及训练范式难以协同优化感知与推理能力。

核心方法:PISM与CMAB

PISM通过渐进式掩码模拟视觉信息损失,评估模型对不同难度样本的敏感性,从而划分样本难度。CMAB则通过分析模型生成响应时对文本与图像的注意力分配比例,量化跨模态交互复杂度。两者结合,为多模态样本提供了可操作的难度评估标准。

实验设计与结果

研究基于Qwen2.5VL-7B模型,对比了GRPO-only和SFT+GRPO两种范式。结果显示: 1. GRPO-only优势显著:在MathVista、OCRBench等任务中表现最优,且较全量数据训练有大幅提升。 2. SFT未带来增益:SFT可能引入“伪思维链”,限制模型推理能力。 3. 随机样本效果有限:验证了难度分层对高质量样本筛选的重要性。

关键结论

  1. 难度感知采样是核心,数据质量比数量更重要。
  2. GRPO-only范式可行,简化了训练流程,推翻了“SFT是RL必要前提”的传统认知。
  3. 提出多模态样本难度量化标准,为多模态大模型性能提升提供新路径。

未来研究方向包括动态难度调整、多策略融合及更大模型验证。目前代码已开源,期待推动多模态AI在医疗、教育等领域的应用。

arXiv: https://arxiv.org/abs/2511.06722
GitHub: https://github.com/qijianyu277/DifficultySampling

原文链接
本文链接:https://kx.umi6.com/article/29316.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
上海AI实验室开源通用多模态大模型书生·万象3.5
2025-09-03 20:52:29
全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球
2025-09-09 12:12:13
前微软亚研院视觉专家胡瀚加入腾讯 负责混元多模态大模型
2025-01-08 15:42:57
独家|商汤联合创始人林达华:开源模型与顶尖闭源模型的差距正在迅速缩小
2025-02-21 15:57:46
SuperCLUE多模态视觉评测榜:文心4.5 Turbo总分并列国内第一
2025-08-28 21:28:42
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
2025-11-28 12:26:14
GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
2025-04-23 11:52:51
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
2024-06-21 17:23:05
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
2024-10-30 17:14:43
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
2025-07-14 14:19:19
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
2024-05-27 16:15:00
阶跃星辰两款开源模型均位列 Hugging Face榜单Top 5
2025-02-25 12:57:29
阶跃星辰走「窄门」
2025-06-12 18:36:57
24小时热文
更多
扫一扫体验小程序