视觉推理能力 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

新研究：人类读指针式时钟准确率达 89.1%，顶尖 AI 仅 13.3%

9月14日，一项新研究显示，人类读取指针式时钟的准确率达89.1%，而顶尖AI模型仅13.3%。研究采用名为ClockBench的测试，包含180个定制时钟和720道题目，涵盖时间读取、计算及调整等任务。谷歌Gemini 2.5 Pro以13.3%准确率居首，GPT-5为8.4%，Grok 4垫底仅0.7%。研究指出，AI在视觉推理和特殊钟面设计上存在显著短板，尤其面对罗马数字或彩色背景时准确率更低。此外，尽管AI能完成后续数学运算，但初始视觉信息提取仍是瓶颈。研究者认为，当前AI能力需全新技术突破，而非简单扩大规模。该基准测试被定位为长期工具，完整数据集暂未公开。

原文链接

像素宇宙

09-14 16:42:29

AI模型

指针式时钟

视觉推理能力

分享至

打开微信扫一扫

内容投诉

生成图片

标题：多模态大模型视觉推理能力不足：RBench-V评估显示o3仅25.8%，远低于人类82.3% 多模态时代如何评估模型的视觉输出能力？清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V，专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域，要求模型生成或修改图像...

原文链接