标题:多模态模型挑战地铁图:ReasonMap评测基准揭示性能差距
近年来,大语言模型(LLMs)及多模态大模型(MLLMs)在复杂推理任务中取得显著进展。然而,面对结构复杂的高清地铁图,它们能否真正“看懂图”仍是疑问。为此,来自多家高校的研究团队开发了ReasonMap,首个专注于高分辨率交通图推理的评测基准,特别评估模型在细粒度空间信息理解上的能力。
ReasonMap包含来自多个城市地铁图的推理任务,结果显示主流开源模型在路径规划中常出现视觉混淆或站点遗漏。经强化学习优化的闭源模型(如GPT-o3)表现更优,但仍不及人类水平。在涉及北京、杭州等地铁图的测试中,四个代表性模型的表现差异明显。
ReasonMap强调图像的空间关系推理,数据集平均分辨率达5839×5449,远超现有视觉推理任务。其设计注重难度分级、多维度评估及贴近实际使用场景。团队通过高效的半自动化标注流程降低了人力成本,同时确保了数据集的多样性和扩展性。
评估显示,ReasonMap有效放大了多模态模型间的性能差距,为模型优化提供了明确方向。该基准已成为衡量模型视觉-空间推理能力的重要工具。相关论文、代码及数据集已公开。
原文链接
本文链接:https://kx.umi6.com/article/19858.html
转载请注明文章出处
相关推荐
换一换
独家|华为昇腾适配阶跃星辰多模态开源模型
2025-03-10 14:41:01
阶跃生态开放日:聚焦智能终端 Agent,率先布局端侧全产业
2025-02-25 17:06:04
比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了
2024-10-24 14:09:29
谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相
2025-05-21 05:52:42
阶跃星辰首届开放日:多模领先,智能终端等Agent应用全面涌现
2025-02-21 18:55:11
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
2025-01-28 01:38:40
Mistral 发布首款多模态模型,挑战 OpenAI等竞争对手
2024-09-12 16:52:34
超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!
2024-11-19 14:50:08
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
2024-11-11 16:27:28
阿里深夜炸场!通义千问发布新一代端到端旗舰模型Qwen2.5-Omni
2025-03-27 04:26:09
多模态都是假的:最强模型数不清手指、认不出雷碧
2025-07-22 15:38:55
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
行业首个:8B 参数面壁小钢炮 MiniCPM-V 4.5 开源,号称“最强端侧多模态模型”
2025-08-28 10:15:37
569 文章
270261 浏览
24小时热文
更多
-
2025-10-28 09:43:28 -
2025-10-28 09:42:30 -
2025-10-28 09:41:18