单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
国产开源模型再添亮点,智源研究院联合上海交通大学等机构发布新一代超长视频理解模型Video-XL-2。该模型可在单张显卡上高效处理长达万帧的视频输入,编码2048帧视频仅需12秒。
相较于上一代Video-XL,Video-XL-2在效果、长度、速度三方面全面升级。在MLVU、Video-MME、LVBench等主流评测中表现优异,接近甚至超越部分720亿参数大模型。同时,模型架构包含视觉编码器、动态Token合成模块及大语言模型三大核心组件,采用四阶段渐进式训练策略,确保强大理解力。
此外,Video-XL-2通过分段式预装填与双粒度KV解码机制优化效率,在单张24GB显卡上支持千帧视频处理,80GB显卡上可达万帧级。其在影视内容分析、异常行为监测等领域应用前景广阔,项目代码与模型已全面开源。
原文链接
本文链接:https://kx.umi6.com/article/19693.html
转载请注明文章出处
相关推荐
.png)
换一换
奥特曼再谈DeepSeek
2025-02-08 17:27:08
Meta AI首席科学家杨立昆谈DeepSeek:不是中国AI超越美国 而是开源模型超越专有模型
2025-01-27 12:30:46
LangChain《2024人工智能全景报告出炉》:OpenAI依旧是龙头 开源模型采用率上升
2024-12-24 14:35:00
430 文章
74037 浏览
24小时热文
更多

-
2025-07-19 15:54:36
-
2025-07-19 15:54:26
-
2025-07-19 14:57:21