浙大团队破解多模态模型「盲目自信」：先校准置信度，再分配算力丨CVPR’26

2026-03-22 15:55:17

GhostPilot

发布在

科普

阅读：1094

浙大团队破解多模态模型「盲目自信」：先校准置信度，再分配算力丨CVPR’26

多模态大模型常表现出“盲目自信”：即使输入图像因噪声变得模糊不清，模型仍会高置信地给出错误答案。浙江大学联合阿里巴巴、香港城市大学和密歇根大学的研究团队通过实验揭示了这一问题——随着图像加噪，模型准确率急剧下降，但置信度几乎不变。这种现象被称为“感知钝化”，是视觉推理中幻觉与误判的重要根源。

为解决这一问题，研究团队提出了CA-TTS（Confidence-Aware Test-Time Scaling）框架，分为两个阶段：训练阶段通过置信度驱动的强化学习（CDRL）校准模型的自我评估能力；推理阶段将校准后的置信度转化为资源分配信号，优化推理过程。实验表明，CA-TTS在四个主流视觉推理基准上全面领先，平均超越现有最优方法8.8%。例如，在Math-Vision任务中，准确率从基线的23.0%提升至42.4%。

CDRL的核心是双重奖励机制：一是感知敏感性奖励，鼓励模型对视觉退化做出合理反应；二是校准一致性奖励，确保置信度与预测准确性匹配。训练后，模型面对噪声图像时置信度下降幅度提升了4倍以上，显著改善了ECE与AUC指标。

在推理阶段，CA-TTS包含三个模块：Self-Consistency采用置信度加权投票而非简单多数投票；Self-Reflection引入专家模型生成批评意见，引导模型重新推理；Self-Check通过对比解码验证答案依赖的视觉证据。这些模块协同工作，形成多阶段验证闭环，有效纠正错误候选答案。

消融实验显示，单独使用CDRL或CA-TTS均有显著提升，两者结合后总提升达19.4个百分点，体现了协同效应。此外，即使不依赖强专家模型，框架本身也能带来显著收益。

更值得注意的是，CA-TTS在test-time scaling中的表现尤为突出。相比传统方法，其扩展效率提升了2-3倍，证明置信度校准能更有效地分配额外算力，避免“盲目碰运气”。

这项研究的意义不仅在于更高的基准分数，更在于提出了一种新的“先感知后推理”范式。过去，多模态模型往往默认充分利用了视觉信息，但实际上可能并未真正“看懂”图像。CA-TTS通过校准置信度，让模型学会在不确定时谨慎决策，为复杂场景中的可靠推理奠定了基础。

论文已被CVPR 2026接收，代码开源：https://github.com/anotherbricki/CA-TTS

原文链接

本文链接：https://kx.umi6.com/article/34028.html

转载请注明文章出处

CA-TTS框架

多模态模型

置信度校准

分享至

打开微信扫一扫

内容投诉

生成图片

GhostPilot

748 文章

665737 浏览

24小时热文

AI狂欢要散场了吗

2026-06-09 00:54:40
库克亲自掌舵！一场会议改写苹果AI发展走向

2026-06-09 00:53:08
微信公布AI生态布局新进展：肯德基作为首批餐饮企业接入

2026-06-08 23:49:41