标题:多模态大模型视觉推理能力不足:RBench-V评估显示o3仅25.8%,远低于人类82.3%
多模态时代如何评估模型的视觉输出能力?清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V,专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域,要求模型生成或修改图像内容进行推理。
结果显示,表现最佳的o3模型准确率仅为25.8%,远低于人类的82.3%。这一研究引发Reddit社区热议,有评论指出,视觉推理是孩子的基本技能,但顶级AI模型却难以胜任。
RBench-V包含803道题目,强调模型通过绘制辅助线、标注区域等方式进行思考的能力。尽管GPT-4o、Gemini等模型标榜多模态能力,但在需图像输出的任务中表现不佳。开源模型如Qwen2.5VL、InternVL等准确率更低,甚至接近随机水平。
研究指出,单纯扩大参数规模或增加图像输入无法显著提升视觉推理能力。当前模型倾向于将图形问题转化为代数表达,而非直观可视化思考。RBench-V建议发展多模态思维链(M-CoT)和智能体推理等新方法,以实现更强大的视觉推理能力。相关资源可在项目主页获取。
原文链接
本文链接:https://kx.umi6.com/article/19348.html
转载请注明文章出处
相关推荐
.png)
换一换
字节视觉-语言多模态大模型Seed VLM技术报告首次公开
2025-05-13 14:57:31
当虹科技上半年亏损收窄 研发投入下降
2025-08-23 08:59:00
GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
2025-04-04 13:10:23
西部证券:具有视觉能力的多模态大模型将对视觉 SoC和存储带来新需求
2024-12-16 10:00:06
国际首个,我国团队开发糖尿病诊疗多模态大模型 DeepDR-LLM
2024-07-25 18:37:14
商汤「日日新V6.5」登顶OpenCompass全球多模态大模型榜单
2025-09-10 17:39:23
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强
2024-07-04 23:04:31
「生数科技」完成数亿元Pre-A轮融资,百度投了 | 36氪首发
2024-06-06 16:27:59
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
2025-10-03 13:39:17
多模态大模型崛起:IP和创作者的新时代
2025-04-17 18:47:50
多模态实力领跑开源大模型!阶跃星辰与吉利宣布联合开源两款多模态大模型
2025-02-18 10:16:14
腾讯微信正式发布多模态大模型 POINTS 1.5
2024-12-16 09:34:39
524 文章
246670 浏览
24小时热文
更多

-
2025-10-04 00:49:30
-
2025-10-03 23:48:11
-
2025-10-03 22:46:52