1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:多模态模型挑战地铁图:ReasonMap评测基准揭示性能差距

近年来,大语言模型(LLMs)及多模态大模型(MLLMs)在复杂推理任务中取得显著进展。然而,面对结构复杂的高清地铁图,它们能否真正“看懂图”仍是疑问。为此,来自多家高校的研究团队开发了ReasonMap,首个专注于高分辨率交通图推理的评测基准,特别评估模型在细粒度空间信息理解上的能力。

ReasonMap包含来自多个城市地铁图的推理任务,结果显示主流开源模型在路径规划中常出现视觉混淆或站点遗漏。经强化学习优化的闭源模型(如GPT-o3)表现更优,但仍不及人类水平。在涉及北京、杭州等地铁图的测试中,四个代表性模型的表现差异明显。

ReasonMap强调图像的空间关系推理,数据集平均分辨率达5839×5449,远超现有视觉推理任务。其设计注重难度分级、多维度评估及贴近实际使用场景。团队通过高效的半自动化标注流程降低了人力成本,同时确保了数据集的多样性和扩展性。

评估显示,ReasonMap有效放大了多模态模型间的性能差距,为模型优化提供了明确方向。该基准已成为衡量模型视觉-空间推理能力的重要工具。相关论文、代码及数据集已公开。

原文链接
本文链接:https://kx.umi6.com/article/19858.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阶跃星辰首届开放日:多模领先,智能终端等Agent应用全面涌现
2025-02-21 18:55:11
天工大模型 4.0 o1 版 / 4o 版上线,App 及网页可免费使用
2025-01-06 11:23:41
实测Gemini 3 Pro - ,未来已来?
2025-11-19 10:08:03
模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布
2025-10-19 15:51:15
全球最大开源视频模型,现在也Created in China了,阶跃出品
2025-02-18 13:15:12
行业首个:8B 参数面壁小钢炮 MiniCPM-V 4.5 开源,号称“最强端侧多模态模型”
2025-08-28 10:15:37
Nano Banana Pro 新对手,智谱联合华为开源首个国产芯片训练的多模态 SOTA 模型 GLM-Image
2026-01-14 10:24:53
DeepSeek的Janus-Pro表现如何?
2025-01-28 15:49:21
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024-10-21 13:24:07
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
2025-08-12 16:19:29
谷歌正式发布 Gemma 3n 小钢炮模型:2GB 内存本地玩转 AI 多模态
2025-06-27 16:11:19
行业首个:商汤发布并开源 NEO 原生多模态模型架构,实现视觉、语言深层统一
2025-12-02 23:39:14
24小时热文
更多
扫一扫体验小程序