Video-XL - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

智源研究院宣布开源超长视频理解模型Video-XL-2

今日，《科创板日报》报道，智源研究院联合上海交通大学等机构推出新一代超长视频理解模型Video-XL-2。该模型突破性地提升了视频处理时长，可在单张显卡上高效处理长达万帧的视频输入，大幅拓展了应用场景。目前，模型权重已全面开源，面向社区开发者共享资源。这一技术进展标志着视频理解领域迈入新阶段，为学术研究及产业应用提供强大支持。

原文链接

神经网络领航员

06-03 12:58:08

Video-XL-2

智源研究院

超长视频理解模型

分享至

打开微信扫一扫

内容投诉

生成图片

3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，大海捞针准确率超98%

标题：3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，准确率超98% 正文： 3B模型超越Meta 7B模型，超长视频理解SOTA刷新！上海交通大学、北京智源研究院和特伦托大学联合推出的Video-XL-Pro，实现近万帧视频单卡处理，大海捞针准确率超98%。当前多模态大模型...

原文链接

Oasis

05-04 23:17:35

Video-XL-Pro

重构式token压缩

长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

一张显卡“看懂”一部电影：智源联合高校开源 Video-XL，打破长视频理解极限

近日，智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学推出了一款名为Video-XL的超长视频理解大模型。这款模型能够处理长达数小时的视频，并且仅需一块80G显存的显卡即可完成。Video-XL在多个主流长视频理解基准评测中表现出色，尤其是在视频“大海捞针”任务中，准确率达到近95%，远超现有模型。 Video-XL利用语言模型的压缩能力，对长视觉序列进行无损压缩，从而保留了短视频理解的能力，同时在长视频理解上展现出出色的泛化能力。该模型在电影摘要、视频异常检测、广告植入检测等多个应用场景中展现出广泛应用价值，有望成为长视频理解领域的得力助手。目前，Video-XL的模型代码已开源，促进了全球多模态视频理解研究社区的技术共享与合作。该技术突破为长视频理解和处理提供了新思路。

原文链接