标题:AI数不清六根手指,问题没那么简单
昨天Grok4发布后,我在X上看到一个有趣的帖子:一张恶搞的六指手图片,几乎所有主流AI模型都将其误判为五根手指,包括GPT-4、Gemini、豆包等。只有Claude 4偶尔能给出正确答案。这一现象让我深感不安——如果只是单一模型出错,可能是“幻觉”,但所有模型都错了,说明底层存在系统性问题。
经过一番研究,我找到了一篇今年5月发表的论文《Vision Language Models are Biased》(视觉语言模型存在偏见)。论文的核心观点令人震惊:AI从不真正“看”图片,它们依赖的是记忆和先验知识。换句话说,AI并非通过仔细观察得出结论,而是基于训练数据中反复出现的关联进行推测。例如,“狗有四条腿”“阿迪达斯标志有三条纹”等常识深深嵌入了它们的认知系统。
研究人员设计了一些反常识测试,比如给AI展示四条纹的阿迪达斯鞋、五条腿的狮子或三只脚的鸟。结果发现,顶级AI模型几乎全军覆没,平均准确率仅2.12%。这是因为AI在面对与常识相悖的信息时,会优先信任自己的“刻板印象”,而非眼前的现实。
这种偏见在日常生活中看似无害,但在关键场景中可能引发灾难。例如,工业质检中的微小裂缝、医疗影像中的早期肿瘤,都可能因AI的“固执己见”而被忽视,最终酿成严重后果。
科技越发达,我们越需要清醒认识到它的盲点。AI的视觉判断并非万无一失,甚至可能充满偏见。下次当你依赖AI分析图像时,不妨用自己的眼睛再确认一遍——毕竟,人类的眼睛才是最可靠的工具。
原文链接
本文链接:https://kx.umi6.com/article/21577.html
转载请注明文章出处
相关推荐
.png)
换一换
无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24
2024-11-07 10:13:00
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
2025-06-09 18:31:59
大模型破译甲骨文创下新 SOTA,复旦团队推出新框架
2025-09-08 14:00:34
只需将感知推理能力拆分,2B大模型就能战胜20B,国产新框架高效处理视觉任务
2024-07-03 04:26:59
OpenAI 最新 53 页论文:ChatGPT 看人下菜碟,对“小美”和“小帅”回答不一致
2024-10-16 15:37:43
Hugging Face 最小 AI 视觉语言模型登场:2.56 亿参数,内存低于 1GB PC 也能驾驭
2025-01-24 11:41:33
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
2025-07-02 13:05:58
视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品
2025-01-17 12:16:08
Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
2025-01-26 21:16:45
北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路
2024-11-19 11:41:37
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025-08-08 16:14:57
AI们数不清六根手指,这事没那么简单
2025-07-11 11:37:35
谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性
2025-02-14 15:43:06
489 文章
171672 浏览
24小时热文
更多

-
2025-09-08 21:06:20
-
2025-09-08 21:05:04
-
2025-09-08 21:03:50