1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:多模态的局限:AI数不清六根手指,也认不出“雷碧”

最近因为一个图像AI项目,我深入研究了视觉AI的表现,并发现了一个有趣的现象:即使是顶级AI模型,也会在简单任务上出错,比如数不清六根手指或分辨不出“雷碧”和雪碧。

多模态的真相

所谓的多模态模型,其实并不像我们想象中那样能“看见”。它无法真正理解图像,而是通过将图片转化为高维向量,再结合人工标注的文字描述进行匹配识别。例如,一张手掌图片会被切割成小块,生成嵌入向量,与文字描述的向量映射后形成识别结果。然而,如果训练数据中绝大多数是五指手掌,模型会倾向于默认所有手掌都是五指,导致对六指手掌的误判。

这种偏差源于训练数据的不足。模型更像是一个“概率复读机”,基于已有数据推测最可能的答案。当数据中某种模式(如“五指”)占绝对优势时,模型很难冒险给出罕见结论。

此外,模型的任务设定也会影响结果。例如,识别手掌的任务可能仅关注“是否为手”,而忽略具体手指数量。这种任务粒度的设计进一步限制了模型的能力。

文字与图像的权重

当图片中包含文字时,情况会更复杂。例如,一张写有“6根手指”的五指手掌图,模型仍可能坚持认为这是普通手掌,因为它更依赖视觉特征而非文字提示。而在“雷碧”案例中,尽管图片与雪碧高度相似,模型通常会优先识别文字信息。不过,在多次测试中,模型也可能因图像特征过于强烈而出错。这说明,模型对文字和图像的权重分配并非完全可靠。

数据局限与长尾问题

当前AI模型的核心问题在于数据覆盖不足。训练数据只能反映真实世界的一小部分,尤其是常见场景(“主干道路”),而忽略了罕见情况(“荒野土路”)。例如,六指手掌、假雪碧等长尾场景,往往缺乏足够样本供模型学习。

对于需要处理长尾场景的应用(如医疗影像、工业检测),必须额外采集和标注数据,甚至生成合成数据来弥补这一缺陷。但即便如此,模型仍然受限于其架构和训练目标,无法真正应对复杂的真实世界。

结语

AI的“看见”能力本质上是一个基于海量标注数据构建的概率系统。虽然多模态模型看似全能,但它们的能力边界依然清晰:擅长处理常见场景,却难以应对罕见或未见过的情况。

因此,认清AI的局限性至关重要。唯有通过行业应用不断补充真实世界的样本与场景,才能让模型更加贴近现实。而拥抱这些长尾需求,或许正是未来技术发展的新机遇。

原文链接
本文链接:https://kx.umi6.com/article/22172.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
对话阶跃星辰CEO姜大昕:两年发布16款多模态模型,DeepSeek证明投流模式不成立
2025-05-08 16:31:26
多模态都是假的:最强模型数不清手指、认不出雷碧
2025-07-22 15:38:55
具身智能实力派!十年多模态打底,世界模型开路,商汤悟能来了
2025-07-28 10:08:25
vivo发布端侧多模态模型,只有3B可理解GUI界面,20项评测表现亮眼
2025-07-10 17:25:30
DeepSeek的Janus-Pro表现如何?
2025-01-28 15:49:21
独家丨前阿里通义视觉负责人薄列峰,已加入腾讯混元团队
2025-07-27 19:02:28
41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
2025-08-12 16:19:29
模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布
2025-10-19 15:51:15
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
2025-06-07 13:49:19
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024-10-21 13:24:07
阿里通义千问宣布推出多模态模型 Qwen VLo,实现从感知到生成的跨越
2025-06-28 00:15:30
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
2025-06-28 13:21:34
告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统
2025-10-11 17:30:27
24小时热文
更多
扫一扫体验小程序