1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优

中兴通讯AIM团队投稿
量子位 | 公众号 QbitAI

一项被AAAI 2026接收的研究,针对多模态大模型后训练的难题提出全新解决方案。研究发现,在视觉推理与感知任务中,仅用中等和困难样本训练、完全跳过SFT(监督微调)的GRPO-only范式,性能全面超越传统“SFT+RL”方法。例如,MathVista得分68.3,OCRBench达77.8,MMMU提升0.107,MMStar提升0.083。实验表明,样本难度比训练范式更重要,SFT并非RL的必要前置步骤。

这项由中南大学与中兴通讯团队完成的研究,首次系统性验证了仅靠强化学习(GRPO)即可优化多模态能力,并提出了两种难度量化策略:PISM(渐进式图像语义掩码)和CMAB(跨模态注意力平衡)。这些方法解决了多模态数据中长期存在的两大痛点:缺乏可量化的样本难度指标,以及训练范式难以协同优化感知与推理能力。

核心方法:PISM与CMAB

PISM通过渐进式掩码模拟视觉信息损失,评估模型对不同难度样本的敏感性,从而划分样本难度。CMAB则通过分析模型生成响应时对文本与图像的注意力分配比例,量化跨模态交互复杂度。两者结合,为多模态样本提供了可操作的难度评估标准。

实验设计与结果

研究基于Qwen2.5VL-7B模型,对比了GRPO-only和SFT+GRPO两种范式。结果显示: 1. GRPO-only优势显著:在MathVista、OCRBench等任务中表现最优,且较全量数据训练有大幅提升。 2. SFT未带来增益:SFT可能引入“伪思维链”,限制模型推理能力。 3. 随机样本效果有限:验证了难度分层对高质量样本筛选的重要性。

关键结论

  1. 难度感知采样是核心,数据质量比数量更重要。
  2. GRPO-only范式可行,简化了训练流程,推翻了“SFT是RL必要前提”的传统认知。
  3. 提出多模态样本难度量化标准,为多模态大模型性能提升提供新路径。

未来研究方向包括动态难度调整、多策略融合及更大模型验证。目前代码已开源,期待推动多模态AI在医疗、教育等领域的应用。

arXiv: https://arxiv.org/abs/2511.06722
GitHub: https://github.com/qijianyu277/DifficultySampling

原文链接
本文链接:https://kx.umi6.com/article/29316.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
网易云音乐创始人再创业、全灵完成千万美元 Pre-A 轮融资,称将发布全球首个 AI 游戏生成平台
2024-11-18 20:29:26
哈工深聂礼强:多模态大模型是具身智能发展的关键动力丨具身智能十人谈
2024-08-02 18:26:27
西部证券:具有视觉能力的多模态大模型将对视觉 SoC和存储带来新需求
2024-12-16 10:00:06
MiniMax刘华:构建多模态开源生态,研发不再围绕稠密架构
2025-02-23 16:00:51
阶跃星辰多模态大模型为OPPO新机提供技术支持
2025-04-22 16:25:15
阶跃星辰两款开源模型均位列 Hugging Face榜单Top 5
2025-02-25 12:57:29
事关下一代大模型!斯坦福顶尖1%科学家许主洪加盟阿里通义
2025-09-30 12:26:16
上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入
2025-04-17 13:36:40
GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
2025-04-23 11:52:51
上海人工智能实验室开源多模态大模型书生·万象3.0
2025-04-17 12:40:23
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
拓元智慧完成近亿元人民币Pre-A轮融资
2024-12-31 17:46:35
行业催化不断 机构看好AI主题行情
2024-12-24 05:22:47
24小时热文
更多
扫一扫体验小程序