1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

当前评测基准存在几大缺陷:多注重短视频,难以考察长时序理解能力;评估任务较简单,未涉及细粒度能力;问题与画面时序性关联弱;对开放性问题的评估不够精准。针对这些问题,MMBench-Video应运而生,它是一个全面的开放性视频理解评测基准,涵盖从30秒到6分钟的视频,包含210个镜头,涉及16个领域。

MMBench-Video具有以下特点:视频时长跨度广,镜头数多变;全方位能力大考,包含感知与推理;视频种类丰富,问答语言多样化;时序独立性佳,标注质量高。它通过全人工标注,确保数据集的质量和多样性。

实验选取了11个视频语言模型、6个开源图文多模态大模型及GPT-4o等5个闭源模型进行全面评估。结果显示,GPT-4o和Gemini-Pro-v1.5表现优异。令人意外的是,开源图文多模态大模型在视频理解上优于视频语言模型,这可能归因于它们在静态视觉信息处理上的优势。

视频长度和镜头数量是影响模型性能的关键因素。随着镜头数量增加,模型性能下降明显。此外,引入字幕信息提升了模型的上下文理解能力,但增加了生成幻觉内容的风险。裁判模型方面,GPT-4表现出色,而Qwen2-72B-Instruct也在评估中表现出色。

MMBench-Video支持在VLMEvalKit中一键评测,该工具包简化了评估流程。MMBench-Video为视频语言模型的改进提供了重要工具,推动了开源社区对视频理解能力的深入研究。

原文链接
本文链接:https://kx.umi6.com/article/8083.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
2025-07-14 14:19:19
生数科技再获数亿元大额融资,Vidu领跑多模态大模型赛道
2025-09-19 11:12:21
行业首个:vivo 蓝心 3B 端侧多模态大模型发布,10B 以内总榜第一
2025-10-11 10:05:00
多模态实力领跑开源大模型!阶跃星辰与吉利宣布联合开源两款多模态大模型
2025-02-18 10:16:14
全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%
2024-06-12 13:18:49
独家对话Soul App CTO:看好多模态端到端大模型落地社交,新能力预计年底上线
2024-10-19 11:17:30
2025十大AI技术趋势:具身智能、世界模型都有望迎来ChatGPT时刻
2025-01-09 11:54:47
SuperCLUE多模态视觉评测榜:文心4.5 Turbo总分并列国内第一
2025-08-28 21:28:42
阶跃星辰联合吉利首次开源 Step 系列多模态大模型,包含视频、语音两款模型
2025-02-18 11:13:42
上海AI实验室开源通用多模态大模型书生·万象3.5
2025-09-03 20:52:29
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
2025-11-28 12:26:14
MiniMax刘华:构建多模态开源生态,研发不再围绕稠密架构
2025-02-23 16:00:51
全球首个多模态世界模型Emu3来了!智源王仲远:为多模态大模型训练范式指明新方向
2024-10-22 19:16:13
24小时热文
更多
扫一扫体验小程序