标题:多模态大模型视觉推理能力不足:RBench-V评估显示o3仅25.8%,远低于人类82.3%
多模态时代如何评估模型的视觉输出能力?清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V,专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域,要求模型生成或修改图像内容进行推理。
结果显示,表现最佳的o3模型准确率仅为25.8%,远低于人类的82.3%。这一研究引发Reddit社区热议,有评论指出,视觉推理是孩子的基本技能,但顶级AI模型却难以胜任。
RBench-V包含803道题目,强调模型通过绘制辅助线、标注区域等方式进行思考的能力。尽管GPT-4o、Gemini等模型标榜多模态能力,但在需图像输出的任务中表现不佳。开源模型如Qwen2.5VL、InternVL等准确率更低,甚至接近随机水平。
研究指出,单纯扩大参数规模或增加图像输入无法显著提升视觉推理能力。当前模型倾向于将图形问题转化为代数表达,而非直观可视化思考。RBench-V建议发展多模态思维链(M-CoT)和智能体推理等新方法,以实现更强大的视觉推理能力。相关资源可在项目主页获取。
原文链接
本文链接:https://kx.umi6.com/article/19348.html
转载请注明文章出处
相关推荐
换一换
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
2024-10-30 17:14:43
多模态大模型崛起:IP和创作者的新时代
2025-04-17 18:47:50
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
字节迭代多模态大模型 媲美谷歌新品 智能体能力更强、推理成本更低
2025-05-13 15:57:01
张宏江消除“Scaling Law放缓”恐惧,直言未来将迎来“自主智能”的世界
2024-12-07 17:49:03
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
2025-11-28 12:26:14
智源王仲远:多模态大模型对产业更加重要,得多模态大模型得天下
2024-12-31 12:40:05
新研究:人类读指针式时钟准确率达 89.1%,顶尖 AI 仅 13.3%
2025-09-14 16:42:29
阶跃星辰发布“万亿”和“多模态”大模型 与上海电影“大闹天宫”|2024WAIC
2024-07-06 21:38:20
挑战高考数学完胜!商汤日日新多模态大模型权威评测第一
2024-12-19 20:05:26
多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% | 清华腾讯斯坦福联合
2025-05-28 16:33:14
拓元智慧完成近亿元人民币Pre-A轮融资
2024-12-31 17:46:35
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
2025-06-12 17:39:33
602 文章
362167 浏览
24小时热文
更多
-
2025-12-08 20:48:29 -
2025-12-08 20:47:34 -
2025-12-08 20:45:30