1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%

当前顶尖AI模型能否真正“看懂”物理图像?全新基准SeePhys给出了答案,结果显示顶级模型准确率不足55%。

SeePhys由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学联合推出,涵盖从初中到博士资格考试的全谱系多模态物理问题。该基准强调图形感知在理解物理世界中的重要性,并已正式开源。

实验评估了LLM/MLLM在复杂科学图表与理论推导耦合任务中的表现。即使是最先进的Gemini-2.5-Pro和o4-mini模型,准确率也未达55%,揭示了多模态推理的重大挑战。

SeePhys的独特之处在于其广泛的知识层级覆盖和对视觉信息的深度依赖。它包含2000道题目和2245张图表,涉及经典力学、电磁学等多个领域,分为初中到博士资格考试八个知识层级,以及21类异构图表。

实验发现显示,最佳模型Gemini-2.5-Pro准确率为54.9%,初中物理题正确率低于70%。纯语言模型的表现接近多模态模型,视觉依赖性高的问题正确率明显低于依赖性低的问题。此外,模型对特定图表类型的识别存在障碍,如波动方程图和电路图。

适当视觉提示有助于模型理解问题本质,但知识注入的效果已显现边际效应。研究还归纳出九种常见的错误推理模式,包括视觉误读、过度简化等。

参赛链接:https://www.codabench.org/competitions/7925/ 挑战赛详细信息:https://sites.google.com/view/ai4mathworkshopicml2025/challenge ICML workshop主页:https://sites.google.com/view/ai4mathworkshopicml2025/home 论文:https://arxiv.org/pdf/2505.19099 项目主页:https://github.com/SeePhys/seephys-project

原文链接
本文链接:https://kx.umi6.com/article/19451.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI 董事会主席:如果你想快速烧掉百万美元,就开发自己的 AI 模型吧
2025-07-26 17:44:00
全球首款:浙大一院、阿里达摩院发布主动脉急诊 AI 模型,快速识别“最凶险胸痛”
2025-08-27 17:05:25
苹果用上了安卓AI,马斯克为啥急得跳脚?
2026-01-15 11:35:02
消息称 Meta 明年一季度发布全新 AI 模型 Avocado 牛油果,可能不会开源
2025-12-09 23:01:58
Hugging Face 联合创始人沃尔夫:当前的 AI 模型不太可能带来重大科学突破
2025-10-02 16:17:29
腾讯混元开源端到端 AI 模型 Hunyuan-Foley:视频 + 文字 =“电影级”音效
2025-08-28 13:23:33
挑战英伟达:首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场
2025-11-25 15:56:23
重新体验GPT-5后,我想它比GPT-4o 更需要一场葬礼
2025-08-11 19:06:36
有望代表未来旅行票务平台趋势:谷歌推出利用自然语言“AI 订机票”Flight Deals 功能
2025-08-16 16:27:36
OpenAI 的“iPhone 时刻”:奥尔特曼称 GPT-5 是全球最佳写作、编程 AI 模型,免费 ChatGPT 用户也能体验
2025-08-08 03:00:19
靠AI破解癌症,初创公司融下3000万刀!新目标:建10亿单细胞数据集
2025-08-13 14:33:57
模型免费、推理翻倍:Gemini 3 Flash 深夜炸场
2025-12-18 12:42:55
英伟达CEO黄仁勋:未来十年世界上大部分汽车将实现自动驾驶或高度自动驾驶
2026-01-06 15:13:14
24小时热文
更多
扫一扫体验小程序