2025年了，AI还看不懂时钟？

2025-09-08 21:03:50

2025年了，AI还看不懂时钟？

AI创想团

发布在

科普

阅读：1532

标题：2025年了，AI还看不懂时钟？

正文：
AI基准创建者Alek Safar推出了一项视觉测试ClockBench，评估AI解读模拟时钟的能力。结果令人震惊：人类平均准确率89.1%，而11个主流AI模型的最佳成绩仅13.3%。

ClockBench包含180个时钟、720道问题，涵盖时间有效性判断、时间加减、指针旋转和时区转换等任务。尽管这些模型在其他领域表现出色，但在读取时钟时却显得力不从心。原因可能是训练数据缺乏足够的时钟特征，以及视觉结构难以映射到文本空间。

有趣的是，表现最好的模型仍展现出有限的视觉推理能力，其准确率和误差优于随机水平。此外，某些复杂表盘（如罗马数字或镜像时钟）对AI来说尤为困难，而时间加减等问题则相对简单。

模型间的表现差异显著：谷歌Gemini 2.5系列领先，Anthropic系列落后，Grok 4表现远低于预期。GPT-5排名第三，但推理预算对其提升有限。

另一个发现是，AI在识别“无效时间”上表现更好，例如Gemini 2.5 Pro准确率达40.5%，而Grok 4虽高达64.9%，却将大部分时钟误判为无效。此外，模型正确读取的时钟高度集中，61.7%的时钟未被任何模型读对。

ClockBench揭示了AI在视觉推理上的局限性，也为未来研究提供了方向：是否需要扩大现有范式，还是探索全新方法？

参考资料：
https://x.com/alek_safar/status/1964383077792141390
https://clockbench.ai/

原文链接

本文链接：https://kx.umi6.com/article/24874.html

转载请注明文章出处

ClockBench

视觉推理

读钟能力

分享至

打开微信扫一扫

内容投诉

生成图片

AI创想团

762 文章

825146 浏览

24小时热文