1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:多模态的局限:AI数不清六根手指,也认不出“雷碧”

最近因为一个图像AI项目,我深入研究了视觉AI的表现,并发现了一个有趣的现象:即使是顶级AI模型,也会在简单任务上出错,比如数不清六根手指或分辨不出“雷碧”和雪碧。

多模态的真相

所谓的多模态模型,其实并不像我们想象中那样能“看见”。它无法真正理解图像,而是通过将图片转化为高维向量,再结合人工标注的文字描述进行匹配识别。例如,一张手掌图片会被切割成小块,生成嵌入向量,与文字描述的向量映射后形成识别结果。然而,如果训练数据中绝大多数是五指手掌,模型会倾向于默认所有手掌都是五指,导致对六指手掌的误判。

这种偏差源于训练数据的不足。模型更像是一个“概率复读机”,基于已有数据推测最可能的答案。当数据中某种模式(如“五指”)占绝对优势时,模型很难冒险给出罕见结论。

此外,模型的任务设定也会影响结果。例如,识别手掌的任务可能仅关注“是否为手”,而忽略具体手指数量。这种任务粒度的设计进一步限制了模型的能力。

文字与图像的权重

当图片中包含文字时,情况会更复杂。例如,一张写有“6根手指”的五指手掌图,模型仍可能坚持认为这是普通手掌,因为它更依赖视觉特征而非文字提示。而在“雷碧”案例中,尽管图片与雪碧高度相似,模型通常会优先识别文字信息。不过,在多次测试中,模型也可能因图像特征过于强烈而出错。这说明,模型对文字和图像的权重分配并非完全可靠。

数据局限与长尾问题

当前AI模型的核心问题在于数据覆盖不足。训练数据只能反映真实世界的一小部分,尤其是常见场景(“主干道路”),而忽略了罕见情况(“荒野土路”)。例如,六指手掌、假雪碧等长尾场景,往往缺乏足够样本供模型学习。

对于需要处理长尾场景的应用(如医疗影像、工业检测),必须额外采集和标注数据,甚至生成合成数据来弥补这一缺陷。但即便如此,模型仍然受限于其架构和训练目标,无法真正应对复杂的真实世界。

结语

AI的“看见”能力本质上是一个基于海量标注数据构建的概率系统。虽然多模态模型看似全能,但它们的能力边界依然清晰:擅长处理常见场景,却难以应对罕见或未见过的情况。

因此,认清AI的局限性至关重要。唯有通过行业应用不断补充真实世界的样本与场景,才能让模型更加贴近现实。而拥抱这些长尾需求,或许正是未来技术发展的新机遇。

原文链接
本文链接:https://kx.umi6.com/article/22172.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024-10-21 13:24:07
阿里深夜炸场!通义千问发布新一代端到端旗舰模型Qwen2.5-Omni
2025-03-27 04:26:09
Meta开源多模态模型——Llama 3.2
2024-10-09 11:34:43
比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了
2024-10-24 14:09:29
阶跃星辰推出开源 SOTA 图像编辑模型,一个月连发三款多模态模型
2025-04-27 15:20:13
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
2025-06-07 13:49:19
阿里云魔搭社区:首发阶跃星辰最新开源两款多模态模型 已上架超4万个开源模型
2025-02-21 13:58:38
视觉模型智能涌现后, Scaling Law 不会到头
2024-11-22 12:00:19
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
2025-01-28 01:38:40
智谱首个免费多模态模型 GLM-4V-Flash 上线,支持图像描述生成、视觉问答等
2024-12-09 22:35:42
超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!
2024-11-19 14:50:08
美国华盛顿装上 AI 防空摄像头,22 年老设备下岗
2024-11-27 22:07:21
vivo发布端侧多模态模型,只有3B可理解GUI界面,20项评测表现亮眼
2025-07-10 17:25:30
24小时热文
更多
扫一扫体验小程序