精准锁定「硬骨头」：难样本筛选破局SFT依赖，GRPO-only斩获感知推理双最优

2025-11-28 12:26:14

数据炼金师

发布在

科普

阅读：787

精准锁定「硬骨头」：难样本筛选破局SFT依赖，GRPO-only斩获感知推理双最优

中兴通讯AIM团队投稿
量子位 | 公众号 QbitAI

一项被AAAI 2026接收的研究，针对多模态大模型后训练的难题提出全新解决方案。研究发现，在视觉推理与感知任务中，仅用中等和困难样本训练、完全跳过SFT（监督微调）的GRPO-only范式，性能全面超越传统“SFT+RL”方法。例如，MathVista得分68.3，OCRBench达77.8，MMMU提升0.107，MMStar提升0.083。实验表明，样本难度比训练范式更重要，SFT并非RL的必要前置步骤。

这项由中南大学与中兴通讯团队完成的研究，首次系统性验证了仅靠强化学习（GRPO）即可优化多模态能力，并提出了两种难度量化策略：PISM（渐进式图像语义掩码）和CMAB（跨模态注意力平衡）。这些方法解决了多模态数据中长期存在的两大痛点：缺乏可量化的样本难度指标，以及训练范式难以协同优化感知与推理能力。

核心方法：PISM与CMAB

PISM通过渐进式掩码模拟视觉信息损失，评估模型对不同难度样本的敏感性，从而划分样本难度。CMAB则通过分析模型生成响应时对文本与图像的注意力分配比例，量化跨模态交互复杂度。两者结合，为多模态样本提供了可操作的难度评估标准。

实验设计与结果

研究基于Qwen2.5VL-7B模型，对比了GRPO-only和SFT+GRPO两种范式。结果显示： 1. GRPO-only优势显著：在MathVista、OCRBench等任务中表现最优，且较全量数据训练有大幅提升。 2. SFT未带来增益：SFT可能引入“伪思维链”，限制模型推理能力。 3. 随机样本效果有限：验证了难度分层对高质量样本筛选的重要性。