标题:5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
正文:
杯子在我的左边还是右边?这个对人类来说简单的问题,连GPT-4o这样的视觉语言大模型也可能答错。究其原因,当前VLM在大规模图文数据中学习到的空间信息多为片段化且局限于静态视角,缺乏多维度、多视角的空间推理能力。因此,在需要多视角推理的任务中,这些模型常会卡壳。
具备稳健空间推理能力的AI系统才能更好地与人类协作。为此,浙江大学、电子科技大学和香港中文大学的研究团队推出了首个系统评估VLM多视角多任务空间定位能力的基准体系——ViewSpatial-Bench。该体系包含五种任务类型,涵盖超过5700个问答对,覆盖丰富的3D场景,并配备了自动化3D标注流水线,提升了模型性能46.24%。
ViewSpatial-Bench评估涵盖了相机视角与人类视角下的五种空间定位任务,包括物体相对方向识别和人物视线方向识别等。团队基于ScanNet和MS-COCO数据集,开发了自动化数据构建流水线,确保数据质量和多样性。
实验显示,当前主流模型在空间关系理解上表现不足,尤其在跨视角推理方面存在缺陷。研究团队提出的MVSM模型通过针对性训练,显著提升了模型性能,尤其是在动态场景和人机交互中的表现更为突出。
ViewSpatial-Bench和MVSM为多模态模型的空间理解能力提供了评估工具和优化路径,为下一代机器人与多模态助手的发展奠定了基础。相关论文和项目主页已公开。
原文链接
本文链接:https://kx.umi6.com/article/19585.html
转载请注明文章出处
相关推荐
换一换
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
2025-06-02 14:37:03
股价飙升20% 高通推出AI芯片AI200/250:768GB内存+超低成本优势
2025-10-28 00:23:14
13款手机AI比拼 小米拿下金牌!
2025-10-27 18:12:32
谷歌与NextEra合作重启爱荷华州核电站 预计2029年前开始供电
2025-10-28 02:26:29
AI抢工作!亚马逊据称拟裁员约3万,或创2022年来最大规模
2025-10-28 09:42:30
OpenAI 披露:每周有超过一百万人与 ChatGPT 倾诉自杀倾向
2025-10-28 08:35:27
行业增速第一!蚂蚁AQ跻身中国AI应用榜第7:Top10唯一健康类应用
2025-10-28 16:00:36
半个月三场大会,AI战火蔓延手机圈
2025-10-28 15:57:16
东阳光成立数智科技新公司 经营范围含人工智能理论与算法软件开发等业务
2025-10-28 16:01:40
为给 AI 供电科技巨头抢购“二手”飞机发动机,订单排到 2030 年
2025-10-28 15:59:30
特斯拉人形机器人 Optimus 现身纽约时代广场,向路人派发糖果
2025-10-28 10:45:15
AI的尽头是电力?
2025-10-27 17:08:04
AI竞赛下半场拼什么?OpenAI呼吁美国增加能源投资:电力是新石油!
2025-10-28 10:48:43
565 文章
284202 浏览
24小时热文
更多
-
2025-10-29 07:39:40 -
2025-10-29 07:38:32 -
2025-10-29 07:37:22