1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

当前评测基准存在几大缺陷:多注重短视频,难以考察长时序理解能力;评估任务较简单,未涉及细粒度能力;问题与画面时序性关联弱;对开放性问题的评估不够精准。针对这些问题,MMBench-Video应运而生,它是一个全面的开放性视频理解评测基准,涵盖从30秒到6分钟的视频,包含210个镜头,涉及16个领域。

MMBench-Video具有以下特点:视频时长跨度广,镜头数多变;全方位能力大考,包含感知与推理;视频种类丰富,问答语言多样化;时序独立性佳,标注质量高。它通过全人工标注,确保数据集的质量和多样性。

实验选取了11个视频语言模型、6个开源图文多模态大模型及GPT-4o等5个闭源模型进行全面评估。结果显示,GPT-4o和Gemini-Pro-v1.5表现优异。令人意外的是,开源图文多模态大模型在视频理解上优于视频语言模型,这可能归因于它们在静态视觉信息处理上的优势。

视频长度和镜头数量是影响模型性能的关键因素。随着镜头数量增加,模型性能下降明显。此外,引入字幕信息提升了模型的上下文理解能力,但增加了生成幻觉内容的风险。裁判模型方面,GPT-4表现出色,而Qwen2-72B-Instruct也在评估中表现出色。

MMBench-Video支持在VLMEvalKit中一键评测,该工具包简化了评估流程。MMBench-Video为视频语言模型的改进提供了重要工具,推动了开源社区对视频理解能力的深入研究。

原文链接
本文链接:https://kx.umi6.com/article/8083.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
重构AI在数字和物理世界的生产力,生数科技完成超6亿元A+轮融资
2026-02-06 03:28:59
视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊
2025-11-28 17:39:28
对话式AI即将爆发!将在手机助手、陪伴机器人、学习机等场景率先落地
2025-03-08 22:12:53
GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
2025-04-04 13:10:23
挑战高考数学完胜!商汤日日新多模态大模型权威评测第一
2024-12-19 20:05:26
当下,阿里国际某个指标每两个月就翻一倍
2024-07-20 14:13:21
GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
2025-04-23 11:52:51
前微软亚研院视觉专家胡瀚加入腾讯 负责混元多模态大模型
2025-01-08 15:42:57
独家对话Soul App CTO:看好多模态端到端大模型落地社交,新能力预计年底上线
2024-10-19 11:17:30
腾讯微信正式发布多模态大模型 POINTS 1.5
2024-12-16 09:34:39
奥运攻关技术创新联合体在北京成立,将建全球最长智能跑道、首个国人运动人体专业多模态大模型
2025-05-29 19:40:55
上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入
2025-04-17 13:36:40
大模型如何避免“狭义AI陷阱”?
2024-07-15 21:50:24
24小时热文
更多
扫一扫体验小程序