标题:五大AI助手识图能力大比拼:奇葩卫生间标识挑战
智谱近期推出了GLM-4.5V视觉推理模型,这款开源模型在42项公开视觉基准测试中拿下41项第一,表现惊艳。这让我对主流AI工具的识图能力充满好奇,于是设计了一场小范围评测:让AI识别十张让人摸不着头脑的男女卫生间标识图。
评测任务
评测灵感来自国际人工智能奥林匹克竞赛的一道题目:让AI识别不同风格的男女卫生间标识。这道题难度颇高,甚至让不少天才高中生交了白卷。我从网络上挑选了十张“奇葩”标识图,涵盖从抽象符号到误导性设计的各种类型,并邀请五位选手参与:智谱GLM-4.5(带推理和不带推理两种模式)、豆包、Kimi、元宝以及ChatGPT的GPT-5。所有AI均以默认模式运行,模拟真实场景下的快速判断需求。
评分标准简单直接:正确识别得10分,答案对但理由离谱扣2分,错误则计0分。
评测结果
最终得分如下:
- 智谱GLM-4.5(无推理):86分,排名第一。
- 智谱GLM-4.5(带推理)与GPT-5:并列第二,78分。
- 豆包和元宝:70分。
- Kimi:38分,表现最弱,可能因未重点优化识图功能。
评测过程不乏趣味。例如,面对一张用“XX”和“XY”染色体表示性别的标识图,所有AI都正确回答,展现扎实的生物知识;但在一张抽象的“云雨花”图中,智谱带推理版本陷入混乱,思考长达1分20秒,输出9649字的“内心独白”,堪称“发疯式推理”。
最后一张图尤为有趣:门上的文字与手势指向矛盾。多数AI依据文字判断,而GPT-5不仅答对,还贴心解释了手势干扰;Kimi虽答案正确,但语气轻佻,令人哭笑不得。
结果分析
智谱无推理版本表现最佳,说明快速判断在实际场景中更实用。而Kimi的表现提醒我们,多模态识别并非所有厂商的重点方向。
未来展望
AI视觉识别的应用潜力巨大,可覆盖工厂安全检测、农业作物监控、医学影像分析等众多领域。随着技术进步,AI不仅能“看”,还能“懂”,为现实生活带来更多便利。
想了解更多?查看完整评测表或智谱“发疯”思考过程:
1. AI识别卫生间标识评测表
2. GLM-4.5“发疯”思考过程
本文来自微信公众号:快刀青衣,作者:快刀青衣
.png)

-
2025-08-19 22:06:32
-
2025-08-19 22:06:01
-
2025-08-19 22:05:24