精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
中兴通讯AIM团队投稿
量子位 | 公众号 QbitAI
一项被AAAI 2026接收的研究,针对多模态大模型后训练的难题提出全新解决方案。研究发现,在视觉推理与感知任务中,仅用中等和困难样本训练、完全跳过SFT(监督微调)的GRPO-only范式,性能全面超越传统“SFT+RL”方法。例如,MathVista得分68.3,OCRBench达77.8,MMMU提升0.107,MMStar提升0.083。实验表明,样本难度比训练范式更重要,SFT并非RL的必要前置步骤。
这项由中南大学与中兴通讯团队完成的研究,首次系统性验证了仅靠强化学习(GRPO)即可优化多模态能力,并提出了两种难度量化策略:PISM(渐进式图像语义掩码)和CMAB(跨模态注意力平衡)。这些方法解决了多模态数据中长期存在的两大痛点:缺乏可量化的样本难度指标,以及训练范式难以协同优化感知与推理能力。
核心方法:PISM与CMAB
PISM通过渐进式掩码模拟视觉信息损失,评估模型对不同难度样本的敏感性,从而划分样本难度。CMAB则通过分析模型生成响应时对文本与图像的注意力分配比例,量化跨模态交互复杂度。两者结合,为多模态样本提供了可操作的难度评估标准。
实验设计与结果
研究基于Qwen2.5VL-7B模型,对比了GRPO-only和SFT+GRPO两种范式。结果显示: 1. GRPO-only优势显著:在MathVista、OCRBench等任务中表现最优,且较全量数据训练有大幅提升。 2. SFT未带来增益:SFT可能引入“伪思维链”,限制模型推理能力。 3. 随机样本效果有限:验证了难度分层对高质量样本筛选的重要性。
关键结论
- 难度感知采样是核心,数据质量比数量更重要。
- GRPO-only范式可行,简化了训练流程,推翻了“SFT是RL必要前提”的传统认知。
- 提出多模态样本难度量化标准,为多模态大模型性能提升提供新路径。
未来研究方向包括动态难度调整、多策略融合及更大模型验证。目前代码已开源,期待推动多模态AI在医疗、教育等领域的应用。
arXiv: https://arxiv.org/abs/2511.06722
GitHub: https://github.com/qijianyu277/DifficultySampling
-
2025-12-07 10:27:01 -
2025-12-07 10:25:53 -
2025-12-07 10:24:46