标题:多模态大模型视觉推理能力不足:RBench-V评估显示o3仅25.8%,远低于人类82.3%
多模态时代如何评估模型的视觉输出能力?清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V,专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域,要求模型生成或修改图像内容进行推理。
结果显示,表现最佳的o3模型准确率仅为25.8%,远低于人类的82.3%。这一研究引发Reddit社区热议,有评论指出,视觉推理是孩子的基本技能,但顶级AI模型却难以胜任。
RBench-V包含803道题目,强调模型通过绘制辅助线、标注区域等方式进行思考的能力。尽管GPT-4o、Gemini等模型标榜多模态能力,但在需图像输出的任务中表现不佳。开源模型如Qwen2.5VL、InternVL等准确率更低,甚至接近随机水平。
研究指出,单纯扩大参数规模或增加图像输入无法显著提升视觉推理能力。当前模型倾向于将图形问题转化为代数表达,而非直观可视化思考。RBench-V建议发展多模态思维链(M-CoT)和智能体推理等新方法,以实现更强大的视觉推理能力。相关资源可在项目主页获取。
原文链接
本文链接:https://kx.umi6.com/article/19348.html
转载请注明文章出处
相关推荐
.png)
换一换
让「GPT-4V」跑在手机上,这家中国大模型公司做到了
2024-08-07 11:18:02
阶跃星辰两款开源模型均位列 Hugging Face榜单Top 5
2025-02-25 12:57:29
行业催化不断 机构看好AI主题行情
2024-12-24 05:22:47
443 文章
76990 浏览
24小时热文
更多

-
2025-07-19 14:57:21
-
2025-07-19 14:56:08
-
2025-07-19 14:55:01