
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:多模态大模型视觉推理能力不足:RBench-V评估显示o3仅25.8%,远低于人类82.3%
多模态时代如何评估模型的视觉输出能力?清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V,专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域,要求模型生成或修改图像...
原文链接
加载更多

暂无内容