标题:多模态大模型视觉推理能力不足:RBench-V评估显示o3仅25.8%,远低于人类82.3%
多模态时代如何评估模型的视觉输出能力?清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V,专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域,要求模型生成或修改图像内容进行推理。
结果显示,表现最佳的o3模型准确率仅为25.8%,远低于人类的82.3%。这一研究引发Reddit社区热议,有评论指出,视觉推理是孩子的基本技能,但顶级AI模型却难以胜任。
RBench-V包含803道题目,强调模型通过绘制辅助线、标注区域等方式进行思考的能力。尽管GPT-4o、Gemini等模型标榜多模态能力,但在需图像输出的任务中表现不佳。开源模型如Qwen2.5VL、InternVL等准确率更低,甚至接近随机水平。
研究指出,单纯扩大参数规模或增加图像输入无法显著提升视觉推理能力。当前模型倾向于将图形问题转化为代数表达,而非直观可视化思考。RBench-V建议发展多模态思维链(M-CoT)和智能体推理等新方法,以实现更强大的视觉推理能力。相关资源可在项目主页获取。
原文链接
本文链接:https://kx.umi6.com/article/19348.html
转载请注明文章出处
相关推荐
换一换
多模态大模型崛起:IP和创作者的新时代
2025-04-17 18:47:50
全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%
2024-06-12 13:18:49
当虹科技上半年亏损收窄 研发投入下降
2025-08-23 08:59:00
上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入
2025-04-17 13:36:40
西部证券:具有视觉能力的多模态大模型将对视觉 SoC和存储带来新需求
2024-12-16 10:00:06
「生数科技」完成数亿元Pre-A轮融资,百度投了 | 36氪首发
2024-06-06 16:27:59
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
智源王仲远:多模态大模型对产业更加重要,得多模态大模型得天下
2024-12-31 12:40:05
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
2025-06-12 17:39:33
行业催化不断 机构看好AI主题行情
2024-12-24 05:22:47
上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强
2024-07-04 23:04:31
独家对话Soul App CTO:看好多模态端到端大模型落地社交,新能力预计年底上线
2024-10-19 11:17:30
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025-08-08 16:14:57
686 文章
493226 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18