综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
近日,智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学推出了一款名为Video-XL的超长视频理解大模型。这款模型能够处理长达数小时的视频,并且仅需一块80G显存的显卡即可完成。Video-XL在多个主流长视频理解基准评测中表现出色,尤其是在视频“大海捞针”任务中,准确率达到近95%,远超现有模型。
Video-XL利用语言模型的压缩能力,对长视觉序列进行无损压缩,从而保留了短视频理解的能力,同时在长视频理解上展现出出色的泛化能力。该模型在电影摘要、视频异常检测、广告植入检测等多个应用场景中展现出广泛应用价值,有望成为长视频理解领域的得力助手。
目前,Video-XL的模型代码已开源,促进了全球多模态视频理解研究社区的技术共享与合作。该技术突破为长视频理解和处理提供了新思路。
原文链接
加载更多
暂无内容