标题:5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
正文:
杯子在我的左边还是右边?这个对人类来说简单的问题,连GPT-4o这样的视觉语言大模型也可能答错。究其原因,当前VLM在大规模图文数据中学习到的空间信息多为片段化且局限于静态视角,缺乏多维度、多视角的空间推理能力。因此,在需要多视角推理的任务中,这些模型常会卡壳。
具备稳健空间推理能力的AI系统才能更好地与人类协作。为此,浙江大学、电子科技大学和香港中文大学的研究团队推出了首个系统评估VLM多视角多任务空间定位能力的基准体系——ViewSpatial-Bench。该体系包含五种任务类型,涵盖超过5700个问答对,覆盖丰富的3D场景,并配备了自动化3D标注流水线,提升了模型性能46.24%。
ViewSpatial-Bench评估涵盖了相机视角与人类视角下的五种空间定位任务,包括物体相对方向识别和人物视线方向识别等。团队基于ScanNet和MS-COCO数据集,开发了自动化数据构建流水线,确保数据质量和多样性。
实验显示,当前主流模型在空间关系理解上表现不足,尤其在跨视角推理方面存在缺陷。研究团队提出的MVSM模型通过针对性训练,显著提升了模型性能,尤其是在动态场景和人机交互中的表现更为突出。
ViewSpatial-Bench和MVSM为多模态模型的空间理解能力提供了评估工具和优化路径,为下一代机器人与多模态助手的发展奠定了基础。相关论文和项目主页已公开。
原文链接
本文链接:https://kx.umi6.com/article/19585.html
转载请注明文章出处
相关推荐
换一换
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
2025-06-02 14:37:03
全国首个开放式机器人租赁平台“擎天租”发布:租金最低 200 元起
2025-12-22 16:51:43
新紫光集团与上海仪电签署战略合作协议
2025-12-22 09:34:02
Meta 首席 AI 官汪滔:如果你现在 13 岁,就该把所有精力都放在氛围编程上
2025-12-20 17:59:15
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026
2025-12-22 10:35:49
谷歌 FunctionGemma 把 AI 大模型能力“压缩”进手机,以后玩游戏全靠“吼”
2025-12-20 16:55:51
MiniMax 港股 IPO 获中国证监会备案,与智谱角逐“AI 大模型第一股”
2025-12-22 23:06:29
高盛:中国企业盈利2026年或将增长14% 料提振股市表现
2025-12-22 11:47:42
年仅27岁出任腾讯AI首席科学家:高考数学睡觉错失全省第一
2025-12-21 10:36:26
通用人工智能科技公司MiniMax通过港交所聆讯
2025-12-21 21:04:58
AI 人才争夺战白热化,谷歌另辟蹊径“返聘”老员工
2025-12-20 21:07:15
明年手机 PC 全线涨价,这个锅,AI 必须得背
2025-12-22 10:38:18
翰宇药业参股碳云智肽 深化AI多肽药物开发与产业化协同
2025-12-22 09:35:08
645 文章
407898 浏览
24小时热文
更多
-
2025-12-23 00:09:56 -
2025-12-23 00:08:48 -
2025-12-22 23:07:36