AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率仅55%

2025-05-29 15:35:22

梦境编程师

发布在

科普

阅读：1167

标题：AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率仅55%

当前顶尖AI模型能否真正“看懂”物理图像？全新基准SeePhys给出了答案，结果显示顶级模型准确率不足55%。

SeePhys由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学联合推出，涵盖从初中到博士资格考试的全谱系多模态物理问题。该基准强调图形感知在理解物理世界中的重要性，并已正式开源。

实验评估了LLM/MLLM在复杂科学图表与理论推导耦合任务中的表现。即使是最先进的Gemini-2.5-Pro和o4-mini模型，准确率也未达55%，揭示了多模态推理的重大挑战。

SeePhys的独特之处在于其广泛的知识层级覆盖和对视觉信息的深度依赖。它包含2000道题目和2245张图表，涉及经典力学、电磁学等多个领域，分为初中到博士资格考试八个知识层级，以及21类异构图表。

实验发现显示，最佳模型Gemini-2.5-Pro准确率为54.9%，初中物理题正确率低于70%。纯语言模型的表现接近多模态模型，视觉依赖性高的问题正确率明显低于依赖性低的问题。此外，模型对特定图表类型的识别存在障碍，如波动方程图和电路图。

适当视觉提示有助于模型理解问题本质，但知识注入的效果已显现边际效应。研究还归纳出九种常见的错误推理模式，包括视觉误读、过度简化等。

参赛链接：https://www.codabench.org/competitions/7925/ 挑战赛详细信息：https://sites.google.com/view/ai4mathworkshopicml2025/challenge ICML workshop主页：https://sites.google.com/view/ai4mathworkshopicml2025/home 论文：https://arxiv.org/pdf/2505.19099 项目主页：https://github.com/SeePhys/seephys-project

原文链接

本文链接：https://kx.umi6.com/article/19451.html

转载请注明文章出处

AI模型