标题:多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
淘天集团未来生活实验室投稿 | 量子位公众号 QbitAI
OpenAI o1视觉能力最强,模型普遍“过于自信”。此结论源于首个中文视觉问答基准ChineseSimpleVQA,包含2200个高质量问题,覆盖8个主要话题和56个子话题。
ChineseSimpleVQA是首个系统性衡量视觉大模型事实准确性的中文评测集,分为自动化问答对生成和质量控制两个阶段。研究者从维基百科收集6546个图文对,构建问答对需遵循特定规则。通过多轮自动化方法验证,保留了1100幅图片和2200个问答对作为终版数据集。
o1-preview表现最佳,其次是Gemini-2.0-pro-flash和Gemini-1.5-pro。模型在知识扩展问题上的表现优于主体识别。模型的知识能力随规模提升,但幻觉问题仍是一大挑战。模型普遍过于自信,错误率高于不回答的比率。
ChineseSimpleVQA具有五大特点:多跳评估、多样性、高质量、静态一致性和易于评估。
原文链接
本文链接:https://kx.umi6.com/article/14093.html
转载请注明文章出处
相关推荐
.png)
换一换
GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
2025-04-04 13:10:23
阶跃星辰两款开源模型均位列 Hugging Face榜单Top 5
2025-02-25 12:57:29
多模态通用感知能力超越 GPT-5,上海 AI 实验室开源书生・万象 3.5 大模型
2025-09-03 21:51:48
格灵深瞳:大模型是核心技术发展方向 何时扭亏成投资者关注话题|直击股东会
2024-08-21 10:32:00
哈工深聂礼强:多模态大模型是具身智能发展的关键动力丨具身智能十人谈
2024-08-02 18:26:27
SuperCLUE多模态视觉评测榜:文心4.5 Turbo总分并列国内第一
2025-08-28 21:28:42
独家对话Soul App CTO:看好多模态端到端大模型落地社交,新能力预计年底上线
2024-10-19 11:17:30
多模态实力领跑开源大模型!阶跃星辰与吉利宣布联合开源两款多模态大模型
2025-02-18 10:16:14
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
2024-05-27 16:15:00
行业催化不断 机构看好AI主题行情
2024-12-24 05:22:47
上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强
2024-07-04 23:04:31
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025-08-08 16:14:57
网易云音乐创始人再创业、全灵完成千万美元 Pre-A 轮融资,称将发布全球首个 AI 游戏生成平台
2024-11-18 20:29:26
497 文章
193314 浏览
24小时热文
更多

-
2025-09-10 17:42:53
-
2025-09-10 17:41:43
-
2025-09-10 17:41:30