标题:多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
淘天集团未来生活实验室投稿 | 量子位公众号 QbitAI
OpenAI o1视觉能力最强,模型普遍“过于自信”。此结论源于首个中文视觉问答基准ChineseSimpleVQA,包含2200个高质量问题,覆盖8个主要话题和56个子话题。
ChineseSimpleVQA是首个系统性衡量视觉大模型事实准确性的中文评测集,分为自动化问答对生成和质量控制两个阶段。研究者从维基百科收集6546个图文对,构建问答对需遵循特定规则。通过多轮自动化方法验证,保留了1100幅图片和2200个问答对作为终版数据集。
o1-preview表现最佳,其次是Gemini-2.0-pro-flash和Gemini-1.5-pro。模型在知识扩展问题上的表现优于主体识别。模型的知识能力随规模提升,但幻觉问题仍是一大挑战。模型普遍过于自信,错误率高于不回答的比率。
ChineseSimpleVQA具有五大特点:多跳评估、多样性、高质量、静态一致性和易于评估。
原文链接
本文链接:https://kx.umi6.com/article/14093.html
转载请注明文章出处
相关推荐
换一换
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
2025-10-03 13:39:17
王兴兴透露:宇树机器人已能完成绝大部分工作动作
2025-11-16 15:42:36
前微软亚研院视觉专家胡瀚加入腾讯 负责混元多模态大模型
2025-01-08 15:42:57
MiniMax刘华:构建多模态开源生态,研发不再围绕稠密架构
2025-02-23 16:00:51
格灵深瞳:大模型是核心技术发展方向 何时扭亏成投资者关注话题|直击股东会
2024-08-21 10:32:00
「生数科技」完成数亿元Pre-A轮融资,百度投了 | 36氪首发
2024-06-06 16:27:59
万亿赛道的具身智能,到底是什么?
2025-03-24 20:14:12
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
2024-06-21 17:23:05
西部证券:具有视觉能力的多模态大模型将对视觉 SoC和存储带来新需求
2024-12-16 10:00:06
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
2025-04-04 13:13:45
上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强
2024-07-04 23:04:31
阶跃星辰首次开源Step系列多模态大模型
2025-02-18 10:17:17
多模态实力领跑开源大模型!阶跃星辰与吉利宣布联合开源两款多模态大模型
2025-02-18 10:16:14
602 文章
362167 浏览
24小时热文
更多
-
2025-12-08 20:48:29 -
2025-12-08 20:47:34 -
2025-12-08 20:45:30