1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:多模态大模型视觉推理能力不足:RBench-V评估显示o3仅25.8%,远低于人类82.3%

多模态时代如何评估模型的视觉输出能力?清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V,专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域,要求模型生成或修改图像内容进行推理。

结果显示,表现最佳的o3模型准确率仅为25.8%,远低于人类的82.3%。这一研究引发Reddit社区热议,有评论指出,视觉推理是孩子的基本技能,但顶级AI模型却难以胜任。

RBench-V包含803道题目,强调模型通过绘制辅助线、标注区域等方式进行思考的能力。尽管GPT-4o、Gemini等模型标榜多模态能力,但在需图像输出的任务中表现不佳。开源模型如Qwen2.5VL、InternVL等准确率更低,甚至接近随机水平。

研究指出,单纯扩大参数规模或增加图像输入无法显著提升视觉推理能力。当前模型倾向于将图形问题转化为代数表达,而非直观可视化思考。RBench-V建议发展多模态思维链(M-CoT)和智能体推理等新方法,以实现更强大的视觉推理能力。相关资源可在项目主页获取。

原文链接
本文链接:https://kx.umi6.com/article/19348.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
2025-07-14 14:19:19
万亿赛道的具身智能,到底是什么?
2025-03-24 20:14:12
当下,阿里国际某个指标每两个月就翻一倍
2024-07-20 14:13:21
网易云音乐创始人再创业、全灵完成千万美元 Pre-A 轮融资,称将发布全球首个 AI 游戏生成平台
2024-11-18 20:29:26
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025-08-08 16:14:57
生数科技再获数亿元大额融资,Vidu领跑多模态大模型赛道
2025-09-19 11:12:21
让「GPT-4V」跑在手机上,这家中国大模型公司做到了
2024-08-07 11:18:02
上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强
2024-07-04 23:04:31
SuperCLUE多模态视觉评测榜:文心4.5 Turbo总分并列国内第一
2025-08-28 21:28:42
多模态大模型崛起:IP和创作者的新时代
2025-04-17 18:47:50
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
2025-06-12 17:39:33
全球首个多模态世界模型Emu3来了!智源王仲远:为多模态大模型训练范式指明新方向
2024-10-22 19:16:13
阶跃星辰联合吉利首次开源 Step 系列多模态大模型,包含视频、语音两款模型
2025-02-18 11:13:42
24小时热文
更多
扫一扫体验小程序