单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
国产开源模型再添亮点,智源研究院联合上海交通大学等机构发布新一代超长视频理解模型Video-XL-2。该模型可在单张显卡上高效处理长达万帧的视频输入,编码2048帧视频仅需12秒。
相较于上一代Video-XL,Video-XL-2在效果、长度、速度三方面全面升级。在MLVU、Video-MME、LVBench等主流评测中表现优异,接近甚至超越部分720亿参数大模型。同时,模型架构包含视觉编码器、动态Token合成模块及大语言模型三大核心组件,采用四阶段渐进式训练策略,确保强大理解力。
此外,Video-XL-2通过分段式预装填与双粒度KV解码机制优化效率,在单张24GB显卡上支持千帧视频处理,80GB显卡上可达万帧级。其在影视内容分析、异常行为监测等领域应用前景广阔,项目代码与模型已全面开源。
原文链接
本文链接:https://kx.umi6.com/article/19693.html
转载请注明文章出处
相关推荐
换一换
OpenAI 开源模型发布推迟至夏末,CEO 奥尔特曼称“非常值得等待”
2025-06-11 09:03:41
Altman对话YC总裁:OpenAI的开源模型将远超期待
2025-06-23 10:30:02
前谷歌CEO:千万不要低估中国的AI竞争力
2025-05-10 12:07:51
杨植麟被梁文锋叫醒了!Kimi新模型发布即开源,1T参数全线SOTA
2025-07-12 13:50:53
昆仑万维发布并开源 Skywork-R1V 3.0,多模态推理能力逼近人类专家水平
2025-07-09 11:04:18
谷歌前 CEO 施密特:大多数国家最终可能使用中国的 AI 模型
2025-11-12 16:13:53
Kimi超过DeepSeek的新模型被指“套壳”Qwen?到底怎么回事儿
2025-06-18 21:42:36
阿里千问3下载量破千万!衍生模型数超13万稳居全球第一
2025-06-09 13:26:05
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
2025-08-01 19:06:23
95后小伙手搓AI眼镜:盲道、红绿灯都可认出 成本仅百元
2025-10-24 12:39:22
中国AI开源模型下载量占比首次超过美国
2025-11-27 18:49:55
“开源模型验货官”Perplexity,给Kimi K2盖了个戳
2025-07-21 11:17:17
蚂蚁集团发布万亿参数旗舰模型 Ling-1T 并开源,多项指标位居开源模型榜首
2025-10-11 09:36:05
633 文章
444458 浏览
24小时热文
更多
-
2026-01-23 00:20:44 -
2026-01-22 23:18:34 -
2026-01-22 23:17:29