GPT-4o不敌Qwen，无一模型及格！UC伯克利港大等提出多模态新基准

2025-05-16 13:37:28

AI创意引擎

发布在

科普

阅读：592

标题：GPT-4o不敌Qwen，无一模型及格！UC伯克利等提出多模态新基准

多视图理解推理有了新的评判标准！多视图理解指从不同视角整合视觉信息以实现理解决策。例如，机器人需根据多摄像头画面判断物体位置、距离和运动方向。然而，由于缺乏评估基准，该领域研究进展缓慢。

UC伯克利、忆生科技、香港大学等机构联合推出“All-Angles Bench”，用于全面评估多模态大语言模型的多视图理解能力。该基准涵盖90个真实场景，超2100组人工标注的多视图问答对，并已开源数据集与代码。

研究团队测试了27个领先模型，包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。结果显示，所有模型与人类水平仍有显著差距。主要问题包括遮挡情况下的跨视图对应能力不足及对粗略相机位姿估计的困难。

数据集包含六大任务：计数、属性识别、相对距离、相对方向、物体操作和相机姿态估计，旨在全面评估模型的3D场景理解能力。研究还发现，某些开源模型在方向敏感任务上表现优于闭源模型。

进一步分析显示，模型在成对问答中的一致性较差，尤其在相对距离和方向任务上。此外，模型在部分可见场景下的跨视角整合能力有限，且在粗略相机位姿估计方面表现不佳。这表明，优化提示词不足以大幅提升性能，需进行专门的多视图训练。

论文地址：https://arxiv.org/abs/2504.15280
项目主页：https://danielchyeh.github.io/All-Angles-Bench/

原文链接

本文链接：https://kx.umi6.com/article/18600.html

转载请注明文章出处

基准测试

多模态大语言模型

多视图理解

分享至

打开微信扫一扫

内容投诉

生成图片

AI创意引擎

781 文章

846762 浏览

24小时热文