标题:中科院自动化所推出多图数学推理新基准MV-MATH
挑战多图数学推理新基准,大模型表现不佳?
近日,中国科学院自动化研究所推出多图数学推理数据集MV-MATH,旨在全面评估多模态大语言模型在多视觉场景中的数学推理能力。
结果显示,GPT-4o得分为32.1,类o1模型QvQ得分29.3,所有模型均不及格。
MV-MATH包含2009个涵盖K-12教育场景的高质量数学问题,涉及11个数学领域,分为选择题、填空题和多步问答题三种类型,分为三个难度级别。每个问题结合了多个图像和文本,形成复杂的多视觉场景。
数据集特点包括: - 多视觉场景:每个问题包含2-8个图片,与文本交织。 - 丰富标注:每个样本经过交叉验证,确保质量。 - 多样化数学领域:涵盖基础到高级几何。 - 图像关联性:分为相互依赖集和独立集。
研究团队评测了24个主流开源和闭源多模态大模型。结果显示,最先进模型在多视觉数学任务中表现有限,整体准确率远低于人类水平(76.5%)。
Claude-3.5表现最佳,准确率为33.9%。模型在不同领域和难度级别的表现有显著差异。多数模型在处理相互依赖图像任务上表现不佳,凸显了MLLM在处理数学多视觉环境中的局限性。
图像序列输入优于合并输入,强调了保留图像位置和顺序信息的重要性。
本研究旨在推动多图数学推理的发展。
原文链接
本文链接:https://kx.umi6.com/article/15222.html
转载请注明文章出处
相关推荐
换一换
老黄200亿「钞能力」回应谷歌:联手Groq,补上推理短板
2025-12-28 22:46:20
小米开源“Xiaomi MiMo”大模型:为推理而生,以 7B 参数超越 OpenAI o1-mini
2025-04-30 19:37:14
语言≠思维,AI大模型学不了一点儿推理?
2024-07-09 21:45:04
为什么没人说DeepSeek的数学和代码?
2025-01-31 15:58:10
新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的
2025-02-03 15:12:18
蚂蚁武威:下一代「推理」模型范式大猜想
2025-05-21 00:47:21
360亿AI芯片独角兽,裁员15%
2025-05-09 19:56:29
下给英伟达的新年战书,“小”芯片公司们喜迎2025年
2025-01-03 19:51:53
真的有公司能在推理环节替代英伟达吗?
2024-06-28 03:33:58
黄仁勋:我从不在乎市场份额,英伟达唯一目标是创造新市场
2024-10-23 12:33:52
英伟达跌倒,AI芯片创企却吃饱?DeepSeek开启推理大时代
2025-02-08 16:28:47
Meta亿元天团首个大模型交卷!余家辉宋飏Jason Wei耗时九个月,一雪Llama前耻
2026-04-09 09:56:45
一文读懂:通用智能的本质是什么?
2024-08-29 17:38:24
774 文章
691673 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41