1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

多模态大模型常表现出“盲目自信”:即使输入图像因噪声变得模糊不清,模型仍会高置信地给出错误答案。浙江大学联合阿里巴巴、香港城市大学和密歇根大学的研究团队通过实验揭示了这一问题——随着图像加噪,模型准确率急剧下降,但置信度几乎不变。这种现象被称为“感知钝化”,是视觉推理中幻觉与误判的重要根源。

为解决这一问题,研究团队提出了CA-TTS(Confidence-Aware Test-Time Scaling)框架,分为两个阶段:训练阶段通过置信度驱动的强化学习(CDRL)校准模型的自我评估能力;推理阶段将校准后的置信度转化为资源分配信号,优化推理过程。实验表明,CA-TTS在四个主流视觉推理基准上全面领先,平均超越现有最优方法8.8%。例如,在Math-Vision任务中,准确率从基线的23.0%提升至42.4%。

CDRL的核心是双重奖励机制:一是感知敏感性奖励,鼓励模型对视觉退化做出合理反应;二是校准一致性奖励,确保置信度与预测准确性匹配。训练后,模型面对噪声图像时置信度下降幅度提升了4倍以上,显著改善了ECE与AUC指标。

在推理阶段,CA-TTS包含三个模块:Self-Consistency采用置信度加权投票而非简单多数投票;Self-Reflection引入专家模型生成批评意见,引导模型重新推理;Self-Check通过对比解码验证答案依赖的视觉证据。这些模块协同工作,形成多阶段验证闭环,有效纠正错误候选答案。

消融实验显示,单独使用CDRL或CA-TTS均有显著提升,两者结合后总提升达19.4个百分点,体现了协同效应。此外,即使不依赖强专家模型,框架本身也能带来显著收益。

更值得注意的是,CA-TTS在test-time scaling中的表现尤为突出。相比传统方法,其扩展效率提升了2-3倍,证明置信度校准能更有效地分配额外算力,避免“盲目碰运气”。

这项研究的意义不仅在于更高的基准分数,更在于提出了一种新的“先感知后推理”范式。过去,多模态模型往往默认充分利用了视觉信息,但实际上可能并未真正“看懂”图像。CA-TTS通过校准置信度,让模型学会在不确定时谨慎决策,为复杂场景中的可靠推理奠定了基础。

论文已被CVPR 2026接收,代码开源:https://github.com/anotherbricki/CA-TTS

原文链接
本文链接:https://kx.umi6.com/article/34028.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
Kimi最新多模态模型K2-VL提前现身
2026-01-05 15:13:56
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快
2025-08-27 12:03:30
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
2025-06-28 13:21:34
Meta开源多模态模型——Llama 3.2
2024-10-09 11:34:43
智谱首个免费多模态模型 GLM-4V-Flash 上线,支持图像描述生成、视觉问答等
2024-12-09 22:35:42
AI科学家能不能理解普通人对AI的需求,怎么理解?
2024-10-09 10:59:30
告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统
2025-10-11 17:30:27
独家丨前阿里通义视觉负责人薄列峰,已加入腾讯混元团队
2025-07-27 19:02:28
全球最大开源视频模型,现在也Created in China了,阶跃出品
2025-02-18 13:15:12
智谱联合华为开源首个国产芯片训练的多模态SOTA模型
2026-01-14 09:24:34
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
2025-01-28 01:38:40
阿里通义千问宣布推出多模态模型 Qwen VLo,实现从感知到生成的跨越
2025-06-28 00:15:30
24小时热文
更多
扫一扫体验小程序