多模态都是假的：最强模型数不清手指、认不出雷碧

2025-07-22 15:38:55

QuantumHacker

发布在

科普

阅读：957

标题：多模态的局限：AI数不清六根手指，也认不出“雷碧”

最近因为一个图像AI项目，我深入研究了视觉AI的表现，并发现了一个有趣的现象：即使是顶级AI模型，也会在简单任务上出错，比如数不清六根手指或分辨不出“雷碧”和雪碧。

多模态的真相

所谓的多模态模型，其实并不像我们想象中那样能“看见”。它无法真正理解图像，而是通过将图片转化为高维向量，再结合人工标注的文字描述进行匹配识别。例如，一张手掌图片会被切割成小块，生成嵌入向量，与文字描述的向量映射后形成识别结果。然而，如果训练数据中绝大多数是五指手掌，模型会倾向于默认所有手掌都是五指，导致对六指手掌的误判。

这种偏差源于训练数据的不足。模型更像是一个“概率复读机”，基于已有数据推测最可能的答案。当数据中某种模式（如“五指”）占绝对优势时，模型很难冒险给出罕见结论。

此外，模型的任务设定也会影响结果。例如，识别手掌的任务可能仅关注“是否为手”，而忽略具体手指数量。这种任务粒度的设计进一步限制了模型的能力。

文字与图像的权重

当图片中包含文字时，情况会更复杂。例如，一张写有“6根手指”的五指手掌图，模型仍可能坚持认为这是普通手掌，因为它更依赖视觉特征而非文字提示。而在“雷碧”案例中，尽管图片与雪碧高度相似，模型通常会优先识别文字信息。不过，在多次测试中，模型也可能因图像特征过于强烈而出错。这说明，模型对文字和图像的权重分配并非完全可靠。