AI看图不准?「一拉一推」让模型看得全又准|微软x清华
视觉-语言模型(VLM)的推理能力虽强,但常因“看错”而得出错误答案。问题不在于推理不足,而是模型未能精准聚焦关键视觉证据。现有方法多依赖推理阶段的外部提示,如生成视觉线索或调用工具,但这些方法存在局限:线索形式受限、任务依赖性强且效率低。更重要的是,若模型总需外部提醒才知“看哪儿”,它是否真正理解了视觉世界?
为解决这一问题,微软亚洲研究院与清华大学提出BiPS(双向感知塑形),从训练阶段重塑模型的“看图方式”。BiPS教会模型在面对特定问题时,哪些视觉细节必须关注,哪些可忽略。通过系统性对齐问题与视觉证据,模型内化了“带着问题看图”的能力,在推理时无需额外提示即可自动聚焦关键区域。实验表明,这种能力具有跨任务迁移性,为构建更可靠的视觉理解系统开辟新路径。
视线错位:为何VLM“看”与“想”脱节?
人类视觉是目标驱动的,问趋势追曲线,问数值盯刻度。然而,当前VLM仍停留在识别物体层面,缺乏精准定位关键证据的能力。学界常用视觉提示引导模型视线,但这种方法有三重局限:
- 世界不是矩形的:关键线索往往不规则且弥散,难以用框选或掩码完整覆盖;
- 聚焦能力无法迁移:提示方法高度依赖特定任务,换任务需重新教学;
- 感知滞后于推理:视觉聚焦被视为中间补救步骤,拖慢效率且放大错误。
从“推理补救”到“训练内化”:BiPS的核心转向
BiPS的核心革命在于不再依赖推理阶段的视觉外挂,而是在训练阶段教会模型识别“正确的视觉证据”。其机制分为“拉”与“推”两步:
- “拉”:看全相关证据
构建“证据保留视图”,剔除干扰信息,仅保留回答必需的视觉元素,确保模型基于完整证据链作答。 - “推”:看准关键细节
引入“证据消融视图”,移除决定答案的关键细节,迫使模型拒绝原答案,从而学会依赖不可替代的细粒度线索。
二者协同,推动模型从表面关联走向因果一致的证据依赖,像人类一样“带着问题看世界”。
图表是最好的老师
图表以其高密度、高可控性成为理想训练场。每个元素可程序化添加或移除,并验证其对答案的影响,帮助模型学会聚焦与问题相关的局部线索。
小数据,大迁移
BiPS仅用13K条图表样本微调模型,无需人工标注或任务定制工具。在8个基准测试中,模型性能显著提升,涵盖真实图表理解、数理逻辑推理和通用视觉问答等任务。例如,Qwen2.5-VL-7B的平均准确率提升7.3%,效果跨越数据分布与任务类型。
迈向通用智能的关键一步
BiPS实现的根本转变在于,使模型的视觉注意力从被动扫视转为主动聚焦,迈向真正的通用视觉智能。其核心在于:让模型的眼睛,真正看向问题的关键。
论文链接:https://arxiv.org/abs/2512.22120
-
2026-02-08 15:11:38 -
2026-02-08 14:12:01 -
2026-02-08 14:10:55