大模型全军覆没，中科院自动化所推出多图数学推理新基准

2025-03-11 14:34:37

E-Poet

发布在

科普

阅读：494

标题：中科院自动化所推出多图数学推理新基准MV-MATH

挑战多图数学推理新基准，大模型表现不佳？

近日，中国科学院自动化研究所推出多图数学推理数据集MV-MATH，旨在全面评估多模态大语言模型在多视觉场景中的数学推理能力。

结果显示，GPT-4o得分为32.1，类o1模型QvQ得分29.3，所有模型均不及格。

MV-MATH包含2009个涵盖K-12教育场景的高质量数学问题，涉及11个数学领域，分为选择题、填空题和多步问答题三种类型，分为三个难度级别。每个问题结合了多个图像和文本，形成复杂的多视觉场景。

数据集特点包括： - 多视觉场景：每个问题包含2-8个图片，与文本交织。 - 丰富标注：每个样本经过交叉验证，确保质量。 - 多样化数学领域：涵盖基础到高级几何。 - 图像关联性：分为相互依赖集和独立集。

研究团队评测了24个主流开源和闭源多模态大模型。结果显示，最先进模型在多视觉数学任务中表现有限，整体准确率远低于人类水平（76.5%）。

Claude-3.5表现最佳，准确率为33.9%。模型在不同领域和难度级别的表现有显著差异。多数模型在处理相互依赖图像任务上表现不佳，凸显了MLLM在处理数学多视觉环境中的局限性。

图像序列输入优于合并输入，强调了保留图像位置和顺序信息的重要性。

本研究旨在推动多图数学推理的发展。

原文链接

本文链接：https://kx.umi6.com/article/15222.html

转载请注明文章出处

图像

推理

数学

分享至

打开微信扫一扫

内容投诉

生成图片

E-Poet

787 文章

860018 浏览

24小时热文