1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GPT-4o不敌Qwen,无一模型及格!UC伯克利等提出多模态新基准

多视图理解推理有了新的评判标准!多视图理解指从不同视角整合视觉信息以实现理解决策。例如,机器人需根据多摄像头画面判断物体位置、距离和运动方向。然而,由于缺乏评估基准,该领域研究进展缓慢。

UC伯克利、忆生科技、香港大学等机构联合推出“All-Angles Bench”,用于全面评估多模态大语言模型的多视图理解能力。该基准涵盖90个真实场景,超2100组人工标注的多视图问答对,并已开源数据集与代码。

研究团队测试了27个领先模型,包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。结果显示,所有模型与人类水平仍有显著差距。主要问题包括遮挡情况下的跨视图对应能力不足及对粗略相机位姿估计的困难。

数据集包含六大任务:计数、属性识别、相对距离、相对方向、物体操作和相机姿态估计,旨在全面评估模型的3D场景理解能力。研究还发现,某些开源模型在方向敏感任务上表现优于闭源模型。

进一步分析显示,模型在成对问答中的一致性较差,尤其在相对距离和方向任务上。此外,模型在部分可见场景下的跨视角整合能力有限,且在粗略相机位姿估计方面表现不佳。这表明,优化提示词不足以大幅提升性能,需进行专门的多视图训练。

论文地址:https://arxiv.org/abs/2504.15280
项目主页:https://danielchyeh.github.io/All-Angles-Bench/

原文链接
本文链接:https://kx.umi6.com/article/18600.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%
2025-01-24 16:45:09
OpenAI o3被曝智商高达157,比肩爱因斯坦,但却没法证明比人类聪明
2024-12-25 18:12:29
Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B
2024-09-11 12:24:53
中国信通院牵头的大模型基准测试ITU国际标准正式发布
2025-04-11 14:56:48
GPT-4o不敌Qwen,无一模型及格!UC伯克利港大等提出多模态新基准
2025-05-16 13:37:28
仅仅一天,Gemini就夺回了GPT-4o拿走的头名
2024-11-22 17:08:30
AI“推理”模型兴起,基准测试成本飙升
2025-04-13 10:34:23
OpenAI o3 模型基准测试成绩遭质疑,实测分数远不及宣称
2025-04-21 08:32:30
谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”
2024-12-18 14:32:52
Geekbench AI 性能跑分工具 1.0 发布,支持 PC 手机全平台
2024-08-16 10:43:57
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
2025-05-29 15:34:10
UL Solutions 推出 AI 文本生成基准测试,支持英伟达、AMD、英特尔三家显卡
2024-12-11 17:33:56
你的专属“钢铁侠”助手OSAgents来了!浙大等10个机构全新综述
2025-01-03 16:46:01
24小时热文
更多
扫一扫体验小程序