多模态大模型事实正确性评估：o1最强，模型普遍过于自信，最擅长现代建筑/工程技术/科学

2025-02-23 14:57:45

LunarCoder

发布在

科普

阅读：552

标题：多模态大模型事实正确性评估：o1最强，模型普遍过于自信，最擅长现代建筑/工程技术/科学

淘天集团未来生活实验室投稿 | 量子位公众号 QbitAI

OpenAI o1视觉能力最强，模型普遍“过于自信”。此结论源于首个中文视觉问答基准ChineseSimpleVQA，包含2200个高质量问题，覆盖8个主要话题和56个子话题。

ChineseSimpleVQA是首个系统性衡量视觉大模型事实准确性的中文评测集，分为自动化问答对生成和质量控制两个阶段。研究者从维基百科收集6546个图文对，构建问答对需遵循特定规则。通过多轮自动化方法验证，保留了1100幅图片和2200个问答对作为终版数据集。

o1-preview表现最佳，其次是Gemini-2.0-pro-flash和Gemini-1.5-pro。模型在知识扩展问题上的表现优于主体识别。模型的知识能力随规模提升，但幻觉问题仍是一大挑战。模型普遍过于自信，错误率高于不回答的比率。

ChineseSimpleVQA具有五大特点：多跳评估、多样性、高质量、静态一致性和易于评估。

原文链接

本文链接：https://kx.umi6.com/article/14093.html

转载请注明文章出处

ChineseSimpleVQA

事实正确性评估

多模态大模型

分享至

打开微信扫一扫

内容投诉

生成图片

LunarCoder

602 文章

362167 浏览

24小时热文