1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:五大AI助手识图能力大比拼:奇葩卫生间标识挑战

智谱近期推出了GLM-4.5V视觉推理模型,这款开源模型在42项公开视觉基准测试中拿下41项第一,表现惊艳。这让我对主流AI工具的识图能力充满好奇,于是设计了一场小范围评测:让AI识别十张让人摸不着头脑的男女卫生间标识图。

评测任务

评测灵感来自国际人工智能奥林匹克竞赛的一道题目:让AI识别不同风格的男女卫生间标识。这道题难度颇高,甚至让不少天才高中生交了白卷。我从网络上挑选了十张“奇葩”标识图,涵盖从抽象符号到误导性设计的各种类型,并邀请五位选手参与:智谱GLM-4.5(带推理和不带推理两种模式)、豆包、Kimi、元宝以及ChatGPT的GPT-5。所有AI均以默认模式运行,模拟真实场景下的快速判断需求。

评分标准简单直接:正确识别得10分,答案对但理由离谱扣2分,错误则计0分。

评测结果

最终得分如下:
- 智谱GLM-4.5(无推理):86分,排名第一。
- 智谱GLM-4.5(带推理)GPT-5:并列第二,78分。
- 豆包元宝:70分。
- Kimi:38分,表现最弱,可能因未重点优化识图功能。

评测过程不乏趣味。例如,面对一张用“XX”和“XY”染色体表示性别的标识图,所有AI都正确回答,展现扎实的生物知识;但在一张抽象的“云雨花”图中,智谱带推理版本陷入混乱,思考长达1分20秒,输出9649字的“内心独白”,堪称“发疯式推理”。

最后一张图尤为有趣:门上的文字与手势指向矛盾。多数AI依据文字判断,而GPT-5不仅答对,还贴心解释了手势干扰;Kimi虽答案正确,但语气轻佻,令人哭笑不得。

结果分析

智谱无推理版本表现最佳,说明快速判断在实际场景中更实用。而Kimi的表现提醒我们,多模态识别并非所有厂商的重点方向。

未来展望

AI视觉识别的应用潜力巨大,可覆盖工厂安全检测、农业作物监控、医学影像分析等众多领域。随着技术进步,AI不仅能“看”,还能“懂”,为现实生活带来更多便利。

想了解更多?查看完整评测表或智谱“发疯”思考过程:
1. AI识别卫生间标识评测表
2. GLM-4.5“发疯”思考过程

本文来自微信公众号:快刀青衣,作者:快刀青衣

原文链接
本文链接:https://kx.umi6.com/article/23705.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
体验罗永浩全新的“创业项目” 我只能说:有点难顶
2025-01-07 04:49:23
扎克伯格称 Meta AI 助手月活跃用户规模破 10 亿
2025-05-29 14:35:20
实测Manus:我用它生成了10个邀请码……好玩,但崩溃
2025-03-07 10:14:42
主观评测五大AI助手识图能力,奇葩卫生间标识识别大PK
2025-08-17 12:37:54
英伟达黄仁勋:每个人都将拥有 AI 助手
2024-07-31 16:58:54
GPT-4.1即将登场,但今天最让Altman兴奋的新功能不是它
2025-04-11 08:35:05
今天起,国产AI可以像人一样用手机了!一手实测在此
2024-10-26 18:33:24
AI 助手 Claude 的“内心世界”:Anthropic 新研究解密其价值观
2025-04-22 13:17:55
Agentic AI正在重启入口之争
2024-11-29 08:49:05
谁还没发现微信好友里的“卧底AI”:你以为它只会做红包封面?·
2025-02-05 12:01:07
饿了么推出骑手 AI 助手“小饿”:可主动发出天气预警、封路提示
2025-04-25 13:12:45
我让AI“偷窥”了我的屏幕,它有机会变成我第二个大脑
2025-07-09 13:04:41
安卓版 Perplexity Assistant 登场:AI 多模态交互,“看”懂你的世界
2025-01-24 11:40:29
24小时热文
更多
扫一扫体验小程序