浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26
多模态大模型常表现出“盲目自信”:即使输入图像因噪声变得模糊不清,模型仍会高置信地给出错误答案。浙江大学联合阿里巴巴、香港城市大学和密歇根大学的研究团队通过实验揭示了这一问题——随着图像加噪,模型准确率急剧下降,但置信度几乎不变。这种现象被称为“感知钝化”,是视觉推理中幻觉与误判的重要根源。
为解决这一问题,研究团队提出了CA-TTS(Confidence-Aware Test-Time Scaling)框架,分为两个阶段:训练阶段通过置信度驱动的强化学习(CDRL)校准模型的自我评估能力;推理阶段将校准后的置信度转化为资源分配信号,优化推理过程。实验表明,CA-TTS在四个主流视觉推理基准上全面领先,平均超越现有最优方法8.8%。例如,在Math-Vision任务中,准确率从基线的23.0%提升至42.4%。
CDRL的核心是双重奖励机制:一是感知敏感性奖励,鼓励模型对视觉退化做出合理反应;二是校准一致性奖励,确保置信度与预测准确性匹配。训练后,模型面对噪声图像时置信度下降幅度提升了4倍以上,显著改善了ECE与AUC指标。
在推理阶段,CA-TTS包含三个模块:Self-Consistency采用置信度加权投票而非简单多数投票;Self-Reflection引入专家模型生成批评意见,引导模型重新推理;Self-Check通过对比解码验证答案依赖的视觉证据。这些模块协同工作,形成多阶段验证闭环,有效纠正错误候选答案。
消融实验显示,单独使用CDRL或CA-TTS均有显著提升,两者结合后总提升达19.4个百分点,体现了协同效应。此外,即使不依赖强专家模型,框架本身也能带来显著收益。
更值得注意的是,CA-TTS在test-time scaling中的表现尤为突出。相比传统方法,其扩展效率提升了2-3倍,证明置信度校准能更有效地分配额外算力,避免“盲目碰运气”。
这项研究的意义不仅在于更高的基准分数,更在于提出了一种新的“先感知后推理”范式。过去,多模态模型往往默认充分利用了视觉信息,但实际上可能并未真正“看懂”图像。CA-TTS通过校准置信度,让模型学会在不确定时谨慎决策,为复杂场景中的可靠推理奠定了基础。
论文已被CVPR 2026接收,代码开源:https://github.com/anotherbricki/CA-TTS
-
2026-03-22 18:03:41 -
2026-03-22 17:00:26 -
2026-03-22 15:57:27