多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

2025-06-07 13:49:19

GhostPilot

发布在

科普

阅读：610

标题：多模态模型挑战地铁图：ReasonMap评测基准揭示性能差距

近年来，大语言模型（LLMs）及多模态大模型（MLLMs）在复杂推理任务中取得显著进展。然而，面对结构复杂的高清地铁图，它们能否真正“看懂图”仍是疑问。为此，来自多家高校的研究团队开发了ReasonMap，首个专注于高分辨率交通图推理的评测基准，特别评估模型在细粒度空间信息理解上的能力。

ReasonMap包含来自多个城市地铁图的推理任务，结果显示主流开源模型在路径规划中常出现视觉混淆或站点遗漏。经强化学习优化的闭源模型（如GPT-o3）表现更优，但仍不及人类水平。在涉及北京、杭州等地铁图的测试中，四个代表性模型的表现差异明显。

ReasonMap强调图像的空间关系推理，数据集平均分辨率达5839×5449，远超现有视觉推理任务。其设计注重难度分级、多维度评估及贴近实际使用场景。团队通过高效的半自动化标注流程降低了人力成本，同时确保了数据集的多样性和扩展性。

评估显示，ReasonMap有效放大了多模态模型间的性能差距，为模型优化提供了明确方向。该基准已成为衡量模型视觉-空间推理能力的重要工具。相关论文、代码及数据集已公开。

原文链接

本文链接：https://kx.umi6.com/article/19858.html

转载请注明文章出处

ReasonMap

地铁图推理

多模态模型

分享至

打开微信扫一扫

内容投诉

生成图片

GhostPilot

653 文章

429531 浏览

24小时热文