1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:五大AI助手识图能力大比拼:奇葩卫生间标识挑战

智谱近期推出了GLM-4.5V视觉推理模型,这款开源模型在42项公开视觉基准测试中拿下41项第一,表现惊艳。这让我对主流AI工具的识图能力充满好奇,于是设计了一场小范围评测:让AI识别十张让人摸不着头脑的男女卫生间标识图。

评测任务

评测灵感来自国际人工智能奥林匹克竞赛的一道题目:让AI识别不同风格的男女卫生间标识。这道题难度颇高,甚至让不少天才高中生交了白卷。我从网络上挑选了十张“奇葩”标识图,涵盖从抽象符号到误导性设计的各种类型,并邀请五位选手参与:智谱GLM-4.5(带推理和不带推理两种模式)、豆包、Kimi、元宝以及ChatGPT的GPT-5。所有AI均以默认模式运行,模拟真实场景下的快速判断需求。

评分标准简单直接:正确识别得10分,答案对但理由离谱扣2分,错误则计0分。

评测结果

最终得分如下:
- 智谱GLM-4.5(无推理):86分,排名第一。
- 智谱GLM-4.5(带推理)GPT-5:并列第二,78分。
- 豆包元宝:70分。
- Kimi:38分,表现最弱,可能因未重点优化识图功能。

评测过程不乏趣味。例如,面对一张用“XX”和“XY”染色体表示性别的标识图,所有AI都正确回答,展现扎实的生物知识;但在一张抽象的“云雨花”图中,智谱带推理版本陷入混乱,思考长达1分20秒,输出9649字的“内心独白”,堪称“发疯式推理”。

最后一张图尤为有趣:门上的文字与手势指向矛盾。多数AI依据文字判断,而GPT-5不仅答对,还贴心解释了手势干扰;Kimi虽答案正确,但语气轻佻,令人哭笑不得。

结果分析

智谱无推理版本表现最佳,说明快速判断在实际场景中更实用。而Kimi的表现提醒我们,多模态识别并非所有厂商的重点方向。

未来展望

AI视觉识别的应用潜力巨大,可覆盖工厂安全检测、农业作物监控、医学影像分析等众多领域。随着技术进步,AI不仅能“看”,还能“懂”,为现实生活带来更多便利。

想了解更多?查看完整评测表或智谱“发疯”思考过程:
1. AI识别卫生间标识评测表
2. GLM-4.5“发疯”思考过程

本文来自微信公众号:快刀青衣,作者:快刀青衣

原文链接
本文链接:https://kx.umi6.com/article/23705.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI“缝”搜索
2024-09-19 19:06:21
谷歌升级 Gemini 2.0 系列模型,AI 助手可免费深度推理
2025-03-18 10:29:52
优酷、爱奇艺之后,消息称腾讯视频测试 AI 助手产品“VV”
2025-08-05 13:14:23
腾讯元宝的双轨制尴尬
2025-04-18 19:22:44
微软推出“游戏版 Copilot”:帮你提升游戏技巧、顺利过关
2025-03-14 23:33:58
实测Manus:我用它生成了10个邀请码……好玩,但崩溃
2025-03-07 10:14:42
文档智能,“AI改变生活”的新注解
2024-12-10 14:55:38
中国移动云盘接入 DeepSeek 模型,实现深度思考及快速回答
2025-02-08 17:29:17
谷歌计划融合 Gemini 与 Veo 模型,打造全能 AI 助手
2025-04-13 09:32:04
罗永浩重返科技行业:AI智能助理J1 Assistant上线
2025-01-05 19:57:49
AI 开发利器:Xcode 版 GitHub Copilot 公开预览,智能编码、触手可及
2025-02-18 11:16:54
扎克伯格称 Meta AI 助手月活跃用户规模破 10 亿
2025-05-29 14:35:20
Meta 将允许求职者“开挂”:部分编程面试中可以使用 AI 助手
2025-07-30 18:50:32
24小时热文
更多
扫一扫体验小程序