1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优

中兴通讯AIM团队投稿
量子位 | 公众号 QbitAI

一项被AAAI 2026接收的研究,针对多模态大模型后训练的难题提出全新解决方案。研究发现,在视觉推理与感知任务中,仅用中等和困难样本训练、完全跳过SFT(监督微调)的GRPO-only范式,性能全面超越传统“SFT+RL”方法。例如,MathVista得分68.3,OCRBench达77.8,MMMU提升0.107,MMStar提升0.083。实验表明,样本难度比训练范式更重要,SFT并非RL的必要前置步骤。

这项由中南大学与中兴通讯团队完成的研究,首次系统性验证了仅靠强化学习(GRPO)即可优化多模态能力,并提出了两种难度量化策略:PISM(渐进式图像语义掩码)和CMAB(跨模态注意力平衡)。这些方法解决了多模态数据中长期存在的两大痛点:缺乏可量化的样本难度指标,以及训练范式难以协同优化感知与推理能力。

核心方法:PISM与CMAB

PISM通过渐进式掩码模拟视觉信息损失,评估模型对不同难度样本的敏感性,从而划分样本难度。CMAB则通过分析模型生成响应时对文本与图像的注意力分配比例,量化跨模态交互复杂度。两者结合,为多模态样本提供了可操作的难度评估标准。

实验设计与结果

研究基于Qwen2.5VL-7B模型,对比了GRPO-only和SFT+GRPO两种范式。结果显示: 1. GRPO-only优势显著:在MathVista、OCRBench等任务中表现最优,且较全量数据训练有大幅提升。 2. SFT未带来增益:SFT可能引入“伪思维链”,限制模型推理能力。 3. 随机样本效果有限:验证了难度分层对高质量样本筛选的重要性。

关键结论

  1. 难度感知采样是核心,数据质量比数量更重要。
  2. GRPO-only范式可行,简化了训练流程,推翻了“SFT是RL必要前提”的传统认知。
  3. 提出多模态样本难度量化标准,为多模态大模型性能提升提供新路径。

未来研究方向包括动态难度调整、多策略融合及更大模型验证。目前代码已开源,期待推动多模态AI在医疗、教育等领域的应用。

arXiv: https://arxiv.org/abs/2511.06722
GitHub: https://github.com/qijianyu277/DifficultySampling

原文链接
本文链接:https://kx.umi6.com/article/29316.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
字节视觉-语言多模态大模型Seed VLM技术报告首次公开
2025-05-13 14:57:31
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
2025-06-12 17:39:33
我国发布全球首个深海生境智能多模态大模型
2025-11-06 21:14:23
网易云音乐创始人再创业、全灵完成千万美元 Pre-A 轮融资,称将发布全球首个 AI 游戏生成平台
2024-11-18 20:29:26
当下,阿里国际某个指标每两个月就翻一倍
2024-07-20 14:13:21
国际首个,我国团队开发糖尿病诊疗多模态大模型 DeepDR-LLM
2024-07-25 18:37:14
阶跃星辰发布“万亿”和“多模态”大模型 与上海电影“大闹天宫”|2024WAIC
2024-07-06 21:38:20
阶跃星辰 CEO 姜大昕:智能终端可能成为未来的 AI 入口
2025-11-16 15:39:12
阶跃星辰多模态大模型为OPPO新机提供技术支持
2025-04-22 16:25:15
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
2025-10-03 13:39:17
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
2024-06-21 17:23:05
SuperCLUE多模态视觉评测榜:文心4.5 Turbo总分并列国内第一
2025-08-28 21:28:42
腾讯微信正式发布多模态大模型 POINTS 1.5
2024-12-16 09:34:39
24小时热文
更多
扫一扫体验小程序