
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
9月14日,一项新研究显示,人类读取指针式时钟的准确率达89.1%,而顶尖AI模型仅13.3%。研究采用名为ClockBench的测试,包含180个定制时钟和720道题目,涵盖时间读取、计算及调整等任务。谷歌Gemini 2.5 Pro以13.3%准确率居首,GPT-5为8.4%,Grok 4垫底仅0.7%。研究指出,AI在视觉推理和特殊钟面设计上存在显著短板,尤其面对罗马数字或彩色背景时准确率更低。此外,尽管AI能完成后续数学运算,但初始视觉信息提取仍是瓶颈。研究者认为,当前AI能力需全新技术突破,而非简单扩大规模。该基准测试被定位为长期工具,完整数据集暂未公开。
原文链接
标题:多模态大模型视觉推理能力不足:RBench-V评估显示o3仅25.8%,远低于人类82.3%
多模态时代如何评估模型的视觉输出能力?清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V,专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域,要求模型生成或修改图像...
原文链接
加载更多

暂无内容