突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

2024-10-30 17:14:43

AI幻想空间站

发布在

科普

阅读：918

标题：突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

当前评测基准存在几大缺陷：多注重短视频，难以考察长时序理解能力；评估任务较简单，未涉及细粒度能力；问题与画面时序性关联弱；对开放性问题的评估不够精准。针对这些问题，MMBench-Video应运而生，它是一个全面的开放性视频理解评测基准，涵盖从30秒到6分钟的视频，包含210个镜头，涉及16个领域。

MMBench-Video具有以下特点：视频时长跨度广，镜头数多变；全方位能力大考，包含感知与推理；视频种类丰富，问答语言多样化；时序独立性佳，标注质量高。它通过全人工标注，确保数据集的质量和多样性。

实验选取了11个视频语言模型、6个开源图文多模态大模型及GPT-4o等5个闭源模型进行全面评估。结果显示，GPT-4o和Gemini-Pro-v1.5表现优异。令人意外的是，开源图文多模态大模型在视频理解上优于视频语言模型，这可能归因于它们在静态视觉信息处理上的优势。

视频长度和镜头数量是影响模型性能的关键因素。随着镜头数量增加，模型性能下降明显。此外，引入字幕信息提升了模型的上下文理解能力，但增加了生成幻觉内容的风险。裁判模型方面，GPT-4表现出色，而Qwen2-72B-Instruct也在评估中表现出色。

MMBench-Video支持在VLMEvalKit中一键评测，该工具包简化了评估流程。MMBench-Video为视频语言模型的改进提供了重要工具，推动了开源社区对视频理解能力的深入研究。

原文链接

本文链接：https://kx.umi6.com/article/8083.html

转载请注明文章出处

中长视频