1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:2025年了,AI还看不懂时钟?

正文:
AI基准创建者Alek Safar推出了一项视觉测试ClockBench,评估AI解读模拟时钟的能力。结果令人震惊:人类平均准确率89.1%,而11个主流AI模型的最佳成绩仅13.3%。

ClockBench包含180个时钟、720道问题,涵盖时间有效性判断、时间加减、指针旋转和时区转换等任务。尽管这些模型在其他领域表现出色,但在读取时钟时却显得力不从心。原因可能是训练数据缺乏足够的时钟特征,以及视觉结构难以映射到文本空间。

有趣的是,表现最好的模型仍展现出有限的视觉推理能力,其准确率和误差优于随机水平。此外,某些复杂表盘(如罗马数字或镜像时钟)对AI来说尤为困难,而时间加减等问题则相对简单。

模型间的表现差异显著:谷歌Gemini 2.5系列领先,Anthropic系列落后,Grok 4表现远低于预期。GPT-5排名第三,但推理预算对其提升有限。

另一个发现是,AI在识别“无效时间”上表现更好,例如Gemini 2.5 Pro准确率达40.5%,而Grok 4虽高达64.9%,却将大部分时钟误判为无效。此外,模型正确读取的时钟高度集中,61.7%的时钟未被任何模型读对。

ClockBench揭示了AI在视觉推理上的局限性,也为未来研究提供了方向:是否需要扩大现有范式,还是探索全新方法?

参考资料:
https://x.com/alek_safar/status/1964383077792141390
https://clockbench.ai/

原文链接
本文链接:https://kx.umi6.com/article/24874.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
2025-07-30 15:46:31
OpenAI的“看图思考”,被玩坏了……
2025-04-18 14:14:06
DeepSeek、OpenAI、Kimi 视觉推理哪家强,港中文 MMLab 推出推理基准 MME-COT
2025-02-22 18:44:16
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
2024-11-19 14:45:41
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
2025-09-15 15:56:40
41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
2025-08-12 16:19:29
新王Claude 3.5实测:阿里数学竞赛题不给选项直接做对
2024-06-21 17:13:00
2025年了,AI还看不懂时钟?
2025-09-08 21:03:50
李开复:未来办公司和搭积木一样快,比谁更会用 Agent
2025-12-06 18:42:35
探索机器人“无遥操”,ATEC2025科技精英赛在港收官
2025-12-08 18:41:52
编程界“奥斯卡”百度之星决赛揭晓,上千选手激烈角逐,山东16岁中学生王茂骅夺冠!
2025-12-08 16:34:59
英伟达 4B 小模型击败 GPT-5 Pro!单任务成本仅后者 1/36
2025-12-08 16:36:14
戴尔科技集团 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案
2025-12-06 10:23:57
24小时热文
更多
扫一扫体验小程序