1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优

中兴通讯AIM团队投稿
量子位 | 公众号 QbitAI

一项被AAAI 2026接收的研究,针对多模态大模型后训练的难题提出全新解决方案。研究发现,在视觉推理与感知任务中,仅用中等和困难样本训练、完全跳过SFT(监督微调)的GRPO-only范式,性能全面超越传统“SFT+RL”方法。例如,MathVista得分68.3,OCRBench达77.8,MMMU提升0.107,MMStar提升0.083。实验表明,样本难度比训练范式更重要,SFT并非RL的必要前置步骤。

这项由中南大学与中兴通讯团队完成的研究,首次系统性验证了仅靠强化学习(GRPO)即可优化多模态能力,并提出了两种难度量化策略:PISM(渐进式图像语义掩码)和CMAB(跨模态注意力平衡)。这些方法解决了多模态数据中长期存在的两大痛点:缺乏可量化的样本难度指标,以及训练范式难以协同优化感知与推理能力。

核心方法:PISM与CMAB

PISM通过渐进式掩码模拟视觉信息损失,评估模型对不同难度样本的敏感性,从而划分样本难度。CMAB则通过分析模型生成响应时对文本与图像的注意力分配比例,量化跨模态交互复杂度。两者结合,为多模态样本提供了可操作的难度评估标准。

实验设计与结果

研究基于Qwen2.5VL-7B模型,对比了GRPO-only和SFT+GRPO两种范式。结果显示: 1. GRPO-only优势显著:在MathVista、OCRBench等任务中表现最优,且较全量数据训练有大幅提升。 2. SFT未带来增益:SFT可能引入“伪思维链”,限制模型推理能力。 3. 随机样本效果有限:验证了难度分层对高质量样本筛选的重要性。

关键结论

  1. 难度感知采样是核心,数据质量比数量更重要。
  2. GRPO-only范式可行,简化了训练流程,推翻了“SFT是RL必要前提”的传统认知。
  3. 提出多模态样本难度量化标准,为多模态大模型性能提升提供新路径。

未来研究方向包括动态难度调整、多策略融合及更大模型验证。目前代码已开源,期待推动多模态AI在医疗、教育等领域的应用。

arXiv: https://arxiv.org/abs/2511.06722
GitHub: https://github.com/qijianyu277/DifficultySampling

原文链接
本文链接:https://kx.umi6.com/article/29316.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
多模态大模型崛起:IP和创作者的新时代
2025-04-17 18:47:50
让「GPT-4V」跑在手机上,这家中国大模型公司做到了
2024-08-07 11:18:02
阶跃星辰 CEO 姜大昕:智能终端可能成为未来的 AI 入口
2025-11-16 15:39:12
小红书开源多模态大模型
2025-08-07 14:53:39
行业首个:vivo 蓝心 3B 端侧多模态大模型发布,10B 以内总榜第一
2025-10-11 10:05:00
中国第一,全球第二,视频大模型领军者生数科技完成超 6 亿元A+轮融资
2026-02-06 17:02:51
阶跃星辰首次开源Step系列多模态大模型
2025-02-18 10:17:17
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
2025-10-03 13:39:17
GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
2025-04-04 13:10:23
张宏江消除“Scaling Law放缓”恐惧,直言未来将迎来“自主智能”的世界
2024-12-07 17:49:03
格灵深瞳:大模型是核心技术发展方向 何时扭亏成投资者关注话题|直击股东会
2024-08-21 10:32:00
当虹科技上半年亏损收窄 研发投入下降
2025-08-23 08:59:00
拓元智慧完成近亿元人民币Pre-A轮融资
2024-12-31 17:46:35
24小时热文
更多
扫一扫体验小程序