1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:2025年了,AI还看不懂时钟?

正文:
AI基准创建者Alek Safar推出了一项视觉测试ClockBench,评估AI解读模拟时钟的能力。结果令人震惊:人类平均准确率89.1%,而11个主流AI模型的最佳成绩仅13.3%。

ClockBench包含180个时钟、720道问题,涵盖时间有效性判断、时间加减、指针旋转和时区转换等任务。尽管这些模型在其他领域表现出色,但在读取时钟时却显得力不从心。原因可能是训练数据缺乏足够的时钟特征,以及视觉结构难以映射到文本空间。

有趣的是,表现最好的模型仍展现出有限的视觉推理能力,其准确率和误差优于随机水平。此外,某些复杂表盘(如罗马数字或镜像时钟)对AI来说尤为困难,而时间加减等问题则相对简单。

模型间的表现差异显著:谷歌Gemini 2.5系列领先,Anthropic系列落后,Grok 4表现远低于预期。GPT-5排名第三,但推理预算对其提升有限。

另一个发现是,AI在识别“无效时间”上表现更好,例如Gemini 2.5 Pro准确率达40.5%,而Grok 4虽高达64.9%,却将大部分时钟误判为无效。此外,模型正确读取的时钟高度集中,61.7%的时钟未被任何模型读对。

ClockBench揭示了AI在视觉推理上的局限性,也为未来研究提供了方向:是否需要扩大现有范式,还是探索全新方法?

参考资料:
https://x.com/alek_safar/status/1964383077792141390
https://clockbench.ai/

原文链接
本文链接:https://kx.umi6.com/article/24874.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
2024-11-19 14:45:41
DeepSeek、OpenAI、Kimi 视觉推理哪家强,港中文 MMLab 推出推理基准 MME-COT
2025-02-22 18:44:16
41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
2025-08-12 16:19:29
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
2025-07-30 15:46:31
OpenAI的“看图思考”,被玩坏了……
2025-04-18 14:14:06
新王Claude 3.5实测:阿里数学竞赛题不给选项直接做对
2024-06-21 17:13:00
2025年了,AI还看不懂时钟?
2025-09-08 21:03:50
我国首个:类脑脉冲大模型“瞬悉 1.0”问世,在国产 GPU 算力平台完成训练推理
2025-09-08 11:56:29
“出货量”“渗透率”现积极信号 “AI+”效应推升沪市产业链公司景气度
2025-09-08 21:06:20
京东云计算入股具身智能公司RoboScience
2025-09-08 10:57:08
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此
2025-09-06 12:37:03
百度股价创今年新高!李彦宏700万元重奖技术团队
2025-09-08 20:03:26
AI巨头陷版权风暴,免费的“数据盛宴”即将散场?
2025-09-08 09:56:18
24小时热文
更多
扫一扫体验小程序