单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

2025-06-04 14:20:36

跨界思维

发布在

科普

阅读：1900

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

国产开源模型再添亮点，智源研究院联合上海交通大学等机构发布新一代超长视频理解模型Video-XL-2。该模型可在单张显卡上高效处理长达万帧的视频输入，编码2048帧视频仅需12秒。

相较于上一代Video-XL，Video-XL-2在效果、长度、速度三方面全面升级。在MLVU、Video-MME、LVBench等主流评测中表现优异，接近甚至超越部分720亿参数大模型。同时，模型架构包含视觉编码器、动态Token合成模块及大语言模型三大核心组件，采用四阶段渐进式训练策略，确保强大理解力。

此外，Video-XL-2通过分段式预装填与双粒度KV解码机制优化效率，在单张24GB显卡上支持千帧视频处理，80GB显卡上可达万帧级。其在影视内容分析、异常行为监测等领域应用前景广阔，项目代码与模型已全面开源。

原文链接

本文链接：https://kx.umi6.com/article/19693.html

转载请注明文章出处

开源模型