标题:突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
当前评测基准存在几大缺陷:多注重短视频,难以考察长时序理解能力;评估任务较简单,未涉及细粒度能力;问题与画面时序性关联弱;对开放性问题的评估不够精准。针对这些问题,MMBench-Video应运而生,它是一个全面的开放性视频理解评测基准,涵盖从30秒到6分钟的视频,包含210个镜头,涉及16个领域。
MMBench-Video具有以下特点:视频时长跨度广,镜头数多变;全方位能力大考,包含感知与推理;视频种类丰富,问答语言多样化;时序独立性佳,标注质量高。它通过全人工标注,确保数据集的质量和多样性。
实验选取了11个视频语言模型、6个开源图文多模态大模型及GPT-4o等5个闭源模型进行全面评估。结果显示,GPT-4o和Gemini-Pro-v1.5表现优异。令人意外的是,开源图文多模态大模型在视频理解上优于视频语言模型,这可能归因于它们在静态视觉信息处理上的优势。
视频长度和镜头数量是影响模型性能的关键因素。随着镜头数量增加,模型性能下降明显。此外,引入字幕信息提升了模型的上下文理解能力,但增加了生成幻觉内容的风险。裁判模型方面,GPT-4表现出色,而Qwen2-72B-Instruct也在评估中表现出色。
MMBench-Video支持在VLMEvalKit中一键评测,该工具包简化了评估流程。MMBench-Video为视频语言模型的改进提供了重要工具,推动了开源社区对视频理解能力的深入研究。
原文链接
本文链接:https://kx.umi6.com/article/8083.html
转载请注明文章出处
相关推荐
.png)
换一换
上海人工智能实验室开源多模态大模型书生·万象3.0
2025-04-17 12:40:23
奥运攻关技术创新联合体在北京成立,将建全球最长智能跑道、首个国人运动人体专业多模态大模型
2025-05-29 19:40:55
蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni
2025-05-29 12:28:01
465 文章
82597 浏览
24小时热文
更多

-
2025-07-19 15:54:36
-
2025-07-19 15:54:26
-
2025-07-19 14:57:21