多模态大模型不会画辅助线？最新评估得分：o3仅25.8%，远低于人类82.3%

2025-05-28 16:33:14

多模态大模型不会画辅助线？最新评估得分：o3仅25.8%，远低于人类82.3% | 清华腾讯斯坦福联合

LunarCoder

发布在

科普

阅读：556

标题：多模态大模型视觉推理能力不足：RBench-V评估显示o3仅25.8%，远低于人类82.3%

多模态时代如何评估模型的视觉输出能力？清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V，专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域，要求模型生成或修改图像内容进行推理。

结果显示，表现最佳的o3模型准确率仅为25.8%，远低于人类的82.3%。这一研究引发Reddit社区热议，有评论指出，视觉推理是孩子的基本技能，但顶级AI模型却难以胜任。

RBench-V包含803道题目，强调模型通过绘制辅助线、标注区域等方式进行思考的能力。尽管GPT-4o、Gemini等模型标榜多模态能力，但在需图像输出的任务中表现不佳。开源模型如Qwen2.5VL、InternVL等准确率更低，甚至接近随机水平。

研究指出，单纯扩大参数规模或增加图像输入无法显著提升视觉推理能力。当前模型倾向于将图形问题转化为代数表达，而非直观可视化思考。RBench-V建议发展多模态思维链（M-CoT）和智能体推理等新方法，以实现更强大的视觉推理能力。相关资源可在项目主页获取。

原文链接

本文链接：https://kx.umi6.com/article/19348.html

转载请注明文章出处

RBench-V

多模态大模型

视觉推理能力

分享至

打开微信扫一扫

内容投诉

生成图片

LunarCoder

602 文章

362167 浏览

24小时热文