1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:中科院自动化所推出多图数学推理新基准MV-MATH

挑战多图数学推理新基准,大模型表现不佳?

近日,中国科学院自动化研究所推出多图数学推理数据集MV-MATH,旨在全面评估多模态大语言模型在多视觉场景中的数学推理能力。

结果显示,GPT-4o得分为32.1,类o1模型QvQ得分29.3,所有模型均不及格。

MV-MATH包含2009个涵盖K-12教育场景的高质量数学问题,涉及11个数学领域,分为选择题、填空题和多步问答题三种类型,分为三个难度级别。每个问题结合了多个图像和文本,形成复杂的多视觉场景。

数据集特点包括: - 多视觉场景:每个问题包含2-8个图片,与文本交织。 - 丰富标注:每个样本经过交叉验证,确保质量。 - 多样化数学领域:涵盖基础到高级几何。 - 图像关联性:分为相互依赖集和独立集。

研究团队评测了24个主流开源和闭源多模态大模型。结果显示,最先进模型在多视觉数学任务中表现有限,整体准确率远低于人类水平(76.5%)。

Claude-3.5表现最佳,准确率为33.9%。模型在不同领域和难度级别的表现有显著差异。多数模型在处理相互依赖图像任务上表现不佳,凸显了MLLM在处理数学多视觉环境中的局限性。

图像序列输入优于合并输入,强调了保留图像位置和顺序信息的重要性。

本研究旨在推动多图数学推理的发展。

原文链接
本文链接:https://kx.umi6.com/article/15222.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
对于AI基建产业链各环节,DeepSeek的利好与利空
2025-02-02 09:42:01
三大模型巨头比拼思考“幻觉”:DeepSeek 不敌 ChatGPT,Gemini 用词最少
2025-03-28 15:55:43
AI做数学学会「动脑子」! UCL等发现LLM「程序性知识」,推理绝不是背答案
2024-12-03 17:21:50
老黄200亿「钞能力」回应谷歌:联手Groq,补上推理短板
2025-12-28 22:46:20
英伟达跌倒,AI芯片创企却吃饱?DeepSeek开启推理大时代
2025-02-08 16:28:47
下给英伟达的新年战书,“小”芯片公司们喜迎2025年
2025-01-03 19:51:53
小米开源“Xiaomi MiMo”大模型:为推理而生,以 7B 参数超越 OpenAI o1-mini
2025-04-30 19:37:14
OpenAI 的绝密项目“草莓”,对我们到底意味着什么?
2024-07-16 22:00:19
Transformer能否推理引争议,DeepMind连夜更新论文开源数据集:Transformer真的很强
2024-10-23 10:38:01
新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的
2025-02-03 15:12:18
陶哲轩对谈OpenAI高管,“也许很快OpenAI就能证明陶哲轩是错的”
2024-12-08 13:04:03
OpenAI o3-pro发布,也许当前的RAG过时了
2025-06-17 18:31:23
一文读懂:通用智能的本质是什么?
2024-08-29 17:38:24
24小时热文
更多
扫一扫体验小程序