超长视频理解难平衡性能和效率

2024-10-28 17:57:47

超长视频理解难平衡性能和效率

像素宇宙

发布在

科普

阅读：536

标题：超长视频理解：平衡性能与效率的新突破

仅需一块80G显卡，大模型就能理解小时级超长视频。智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校推出最新成果——超长视频理解大模型Video-XL。

该模型借助语言模型（LLM）的压缩能力处理长视觉序列，不仅保持了短视频理解能力，还在长视频理解方面展现优异的泛化能力。相较于同等规模的模型，Video-XL在多个长视频理解基准评测中排名第一。

Video-XL在效率与性能间实现良好平衡，只需一块80G显存的显卡即可处理2048帧输入（对小时级长度视频采样），并在视频“海中捞针”任务中达到近95%的准确率。

长视频理解是多模态大模型的关键能力之一，也是迈向通用人工智能（AGI）的重要一步。然而，现有模型在处理10分钟以上超长视频时，仍面临性能差和效率低的问题。Video-XL解决了这一难题，并已开源。

未来，Video-XL有望在电影摘要、视频异常检测、广告植入检测等场景中发挥重要作用。

Video-XL的模型结构由视觉编码器（CLIP）、视觉-语言映射器（2-layer MLP）和语言模型（Qwen-7B）组成。它建立了一个统一的视觉编码机制，处理多模态数据时能灵活应对不同格式。

为了提高长视频理解能力，Video-XL引入了视觉上下文隐空间压缩技术，通过语言模型的上下文建模能力实现无损压缩。这种压缩方式减少了视觉信息损失，提升了模型性能。

Video-XL通过优化在压缩视觉信号下的生成质量进行训练。模型在多个主流视频理解基准评测中表现优异，特别是在长视频理解和超长视频理解任务上超越了现有模型。此外，Video-XL还通过自动化流程创建了高质量的VICO数据集，进一步增强了其长视频理解能力。

Video-XL模型现已开源，促进了全球多模态视频理解研究社区的合作与技术共享。论文和模型链接分别为：https://arxiv.org/abs/2409.14485 和 https://huggingface.co/sy1998/Video_XL。

原文链接

本文链接：https://kx.umi6.com/article/7958.html

转载请注明文章出处

性能平衡

视觉压缩

超长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

像素宇宙

549 文章

250786 浏览

24小时热文