1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

AI看图不准?「一拉一推」让模型看得全又准|微软x清华

视觉-语言模型(VLM)的推理能力虽强,但常因“看错”而得出错误答案。问题不在于推理不足,而是模型未能精准聚焦关键视觉证据。现有方法多依赖推理阶段的外部提示,如生成视觉线索或调用工具,但这些方法存在局限:线索形式受限、任务依赖性强且效率低。更重要的是,若模型总需外部提醒才知“看哪儿”,它是否真正理解了视觉世界?

为解决这一问题,微软亚洲研究院与清华大学提出BiPS(双向感知塑形),从训练阶段重塑模型的“看图方式”。BiPS教会模型在面对特定问题时,哪些视觉细节必须关注,哪些可忽略。通过系统性对齐问题与视觉证据,模型内化了“带着问题看图”的能力,在推理时无需额外提示即可自动聚焦关键区域。实验表明,这种能力具有跨任务迁移性,为构建更可靠的视觉理解系统开辟新路径。

视线错位:为何VLM“看”与“想”脱节?

人类视觉是目标驱动的,问趋势追曲线,问数值盯刻度。然而,当前VLM仍停留在识别物体层面,缺乏精准定位关键证据的能力。学界常用视觉提示引导模型视线,但这种方法有三重局限:

  1. 世界不是矩形的:关键线索往往不规则且弥散,难以用框选或掩码完整覆盖;
  2. 聚焦能力无法迁移:提示方法高度依赖特定任务,换任务需重新教学;
  3. 感知滞后于推理:视觉聚焦被视为中间补救步骤,拖慢效率且放大错误。

从“推理补救”到“训练内化”:BiPS的核心转向

BiPS的核心革命在于不再依赖推理阶段的视觉外挂,而是在训练阶段教会模型识别“正确的视觉证据”。其机制分为“拉”与“推”两步:

  • “拉”:看全相关证据
    构建“证据保留视图”,剔除干扰信息,仅保留回答必需的视觉元素,确保模型基于完整证据链作答。
  • “推”:看准关键细节
    引入“证据消融视图”,移除决定答案的关键细节,迫使模型拒绝原答案,从而学会依赖不可替代的细粒度线索。

二者协同,推动模型从表面关联走向因果一致的证据依赖,像人类一样“带着问题看世界”。

图表是最好的老师

图表以其高密度、高可控性成为理想训练场。每个元素可程序化添加或移除,并验证其对答案的影响,帮助模型学会聚焦与问题相关的局部线索。

小数据,大迁移

BiPS仅用13K条图表样本微调模型,无需人工标注或任务定制工具。在8个基准测试中,模型性能显著提升,涵盖真实图表理解、数理逻辑推理和通用视觉问答等任务。例如,Qwen2.5-VL-7B的平均准确率提升7.3%,效果跨越数据分布与任务类型。

迈向通用智能的关键一步

BiPS实现的根本转变在于,使模型的视觉注意力从被动扫视转为主动聚焦,迈向真正的通用视觉智能。其核心在于:让模型的眼睛,真正看向问题的关键。

论文链接:https://arxiv.org/abs/2512.22120

原文链接
本文链接:https://kx.umi6.com/article/32752.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里云推出AI加速框架 模型训练时间缩短50%
2025-06-23 16:27:28
我国多数模型使用的中文数据占比超 60%,部分已达 80%
2025-08-14 11:52:44
国务院:加快研究更加高效的模型训练和推理方法
2025-08-26 17:56:47
字节实习生投毒自家大模型,影响到底有多大?
2024-10-19 10:16:18
国家网信办:利用合成数据进行模型训练和关键能力优化时 应当评估合成数据安全性
2025-12-27 15:42:08
AI看图一本正经胡说八道?「一拉一推」让模型看得全又准|微软x清华
2026-02-08 15:11:38
45亿砸下:BAT的红包雨,我却抢了个寂寞
2026-02-06 03:27:49
清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
2026-02-06 20:12:11
清华研究生开源大一统世界模型:性能超越硅谷标杆40%!
2026-02-07 22:25:40
中门对狙,这下真的AI春晚了
2026-02-07 09:59:29
亚马逊CEO:AWS未完成订单高达2440亿美元 AI需求旺盛
2026-02-06 16:02:22
上海经信委组织开展2026年安全应急装备应用推广典型案例推荐工作 重点鼓励人工智能、5G等创新应用
2026-02-06 11:49:41
春节AI大战杀疯了!千问APP发起奶茶攻势,每人可领525元免单卡
2026-02-06 10:42:39
24小时热文
更多
扫一扫体验小程序