1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文

正文:
杯子在我的左边还是右边?这个对人类来说简单的问题,连GPT-4o这样的视觉语言大模型也可能答错。究其原因,当前VLM在大规模图文数据中学习到的空间信息多为片段化且局限于静态视角,缺乏多维度、多视角的空间推理能力。因此,在需要多视角推理的任务中,这些模型常会卡壳。

具备稳健空间推理能力的AI系统才能更好地与人类协作。为此,浙江大学、电子科技大学和香港中文大学的研究团队推出了首个系统评估VLM多视角多任务空间定位能力的基准体系——ViewSpatial-Bench。该体系包含五种任务类型,涵盖超过5700个问答对,覆盖丰富的3D场景,并配备了自动化3D标注流水线,提升了模型性能46.24%。

ViewSpatial-Bench评估涵盖了相机视角与人类视角下的五种空间定位任务,包括物体相对方向识别和人物视线方向识别等。团队基于ScanNet和MS-COCO数据集,开发了自动化数据构建流水线,确保数据质量和多样性。

实验显示,当前主流模型在空间关系理解上表现不足,尤其在跨视角推理方面存在缺陷。研究团队提出的MVSM模型通过针对性训练,显著提升了模型性能,尤其是在动态场景和人机交互中的表现更为突出。

ViewSpatial-Bench和MVSM为多模态模型的空间理解能力提供了评估工具和优化路径,为下一代机器人与多模态助手的发展奠定了基础。相关论文和项目主页已公开。

原文链接
本文链接:https://kx.umi6.com/article/19585.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
美批准对华销售H20芯片 中方回应
2025-07-18 14:43:02
OpenAI将启动5000万美元基金 支持非营利组织和社区组织
2025-07-19 07:49:30
Grok-4登顶,Kimi K2非思考模型SOTA
2025-07-18 12:38:47
24小时热文
更多
扫一扫体验小程序