标题:突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
当前评测基准存在几大缺陷:多注重短视频,难以考察长时序理解能力;评估任务较简单,未涉及细粒度能力;问题与画面时序性关联弱;对开放性问题的评估不够精准。针对这些问题,MMBench-Video应运而生,它是一个全面的开放性视频理解评测基准,涵盖从30秒到6分钟的视频,包含210个镜头,涉及16个领域。
MMBench-Video具有以下特点:视频时长跨度广,镜头数多变;全方位能力大考,包含感知与推理;视频种类丰富,问答语言多样化;时序独立性佳,标注质量高。它通过全人工标注,确保数据集的质量和多样性。
实验选取了11个视频语言模型、6个开源图文多模态大模型及GPT-4o等5个闭源模型进行全面评估。结果显示,GPT-4o和Gemini-Pro-v1.5表现优异。令人意外的是,开源图文多模态大模型在视频理解上优于视频语言模型,这可能归因于它们在静态视觉信息处理上的优势。
视频长度和镜头数量是影响模型性能的关键因素。随着镜头数量增加,模型性能下降明显。此外,引入字幕信息提升了模型的上下文理解能力,但增加了生成幻觉内容的风险。裁判模型方面,GPT-4表现出色,而Qwen2-72B-Instruct也在评估中表现出色。
MMBench-Video支持在VLMEvalKit中一键评测,该工具包简化了评估流程。MMBench-Video为视频语言模型的改进提供了重要工具,推动了开源社区对视频理解能力的深入研究。
原文链接
本文链接:https://kx.umi6.com/article/8083.html
转载请注明文章出处
相关推荐
.png)
换一换
MiniMax刘华:构建多模态开源生态,研发不再围绕稠密架构
2025-02-23 16:00:51
大模型如何避免“狭义AI陷阱”?
2024-07-15 21:50:24
哈工深聂礼强:多模态大模型是具身智能发展的关键动力丨具身智能十人谈
2024-08-02 18:26:27
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
2024-05-27 16:15:00
格灵深瞳:大模型是核心技术发展方向 何时扭亏成投资者关注话题|直击股东会
2024-08-21 10:32:00
行业催化不断 机构看好AI主题行情
2024-12-24 05:22:47
天问大模型再升级,不仅能“看”懂视频,更能快速实现小目标识别、场景关系理解
2024-10-24 13:07:41
阶跃星辰首次开源Step系列多模态大模型
2025-02-18 10:17:17
中科闻歌:即将发布智川X-Agent智能体平台、优雅多模态大模型产品
2025-02-21 13:57:33
前微软亚研院视觉专家胡瀚加入腾讯 负责混元多模态大模型
2025-01-08 15:42:57
当下,阿里国际某个指标每两个月就翻一倍
2024-07-20 14:13:21
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强
2024-07-04 23:04:31
520 文章
186715 浏览
24小时热文
更多

-
2025-09-06 08:33:16
-
2025-09-06 08:32:00
-
2025-09-06 06:30:37