1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:多模态的局限:AI数不清六根手指,也认不出“雷碧”

最近因为一个图像AI项目,我深入研究了视觉AI的表现,并发现了一个有趣的现象:即使是顶级AI模型,也会在简单任务上出错,比如数不清六根手指或分辨不出“雷碧”和雪碧。

多模态的真相

所谓的多模态模型,其实并不像我们想象中那样能“看见”。它无法真正理解图像,而是通过将图片转化为高维向量,再结合人工标注的文字描述进行匹配识别。例如,一张手掌图片会被切割成小块,生成嵌入向量,与文字描述的向量映射后形成识别结果。然而,如果训练数据中绝大多数是五指手掌,模型会倾向于默认所有手掌都是五指,导致对六指手掌的误判。

这种偏差源于训练数据的不足。模型更像是一个“概率复读机”,基于已有数据推测最可能的答案。当数据中某种模式(如“五指”)占绝对优势时,模型很难冒险给出罕见结论。

此外,模型的任务设定也会影响结果。例如,识别手掌的任务可能仅关注“是否为手”,而忽略具体手指数量。这种任务粒度的设计进一步限制了模型的能力。

文字与图像的权重

当图片中包含文字时,情况会更复杂。例如,一张写有“6根手指”的五指手掌图,模型仍可能坚持认为这是普通手掌,因为它更依赖视觉特征而非文字提示。而在“雷碧”案例中,尽管图片与雪碧高度相似,模型通常会优先识别文字信息。不过,在多次测试中,模型也可能因图像特征过于强烈而出错。这说明,模型对文字和图像的权重分配并非完全可靠。

数据局限与长尾问题

当前AI模型的核心问题在于数据覆盖不足。训练数据只能反映真实世界的一小部分,尤其是常见场景(“主干道路”),而忽略了罕见情况(“荒野土路”)。例如,六指手掌、假雪碧等长尾场景,往往缺乏足够样本供模型学习。

对于需要处理长尾场景的应用(如医疗影像、工业检测),必须额外采集和标注数据,甚至生成合成数据来弥补这一缺陷。但即便如此,模型仍然受限于其架构和训练目标,无法真正应对复杂的真实世界。

结语

AI的“看见”能力本质上是一个基于海量标注数据构建的概率系统。虽然多模态模型看似全能,但它们的能力边界依然清晰:擅长处理常见场景,却难以应对罕见或未见过的情况。

因此,认清AI的局限性至关重要。唯有通过行业应用不断补充真实世界的样本与场景,才能让模型更加贴近现实。而拥抱这些长尾需求,或许正是未来技术发展的新机遇。

原文链接
本文链接:https://kx.umi6.com/article/22172.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024-10-21 13:24:07
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
2024-11-11 16:27:28
对话阶跃星辰CEO姜大昕:两年发布16款多模态模型,DeepSeek证明投流模式不成立
2025-05-08 16:31:26
全球最大开源视频模型,现在也Created in China了,阶跃出品
2025-02-18 13:15:12
阿里云魔搭社区:首发阶跃星辰最新开源两款多模态模型 已上架超4万个开源模型
2025-02-21 13:58:38
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
2025-03-25 09:39:46
超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话
2024-08-30 15:15:58
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
2024-11-11 16:11:01
Mistral 发布首款多模态模型,挑战 OpenAI等竞争对手
2024-09-12 16:52:34
阿里AI TO C业务启动近千人招聘,加速多模态模型和前沿AI应用布局
2025-08-13 16:37:08
视觉模型智能涌现后, Scaling Law 不会到头
2024-11-22 12:00:19
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
2025-06-07 13:49:19
24小时热文
更多
扫一扫体验小程序