单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
国产开源模型再添亮点,智源研究院联合上海交通大学等机构发布新一代超长视频理解模型Video-XL-2。该模型可在单张显卡上高效处理长达万帧的视频输入,编码2048帧视频仅需12秒。
相较于上一代Video-XL,Video-XL-2在效果、长度、速度三方面全面升级。在MLVU、Video-MME、LVBench等主流评测中表现优异,接近甚至超越部分720亿参数大模型。同时,模型架构包含视觉编码器、动态Token合成模块及大语言模型三大核心组件,采用四阶段渐进式训练策略,确保强大理解力。
此外,Video-XL-2通过分段式预装填与双粒度KV解码机制优化效率,在单张24GB显卡上支持千帧视频处理,80GB显卡上可达万帧级。其在影视内容分析、异常行为监测等领域应用前景广阔,项目代码与模型已全面开源。
原文链接
本文链接:https://kx.umi6.com/article/19693.html
转载请注明文章出处
相关推荐
换一换
可能是目前效果最好的开源生图模型,混元生图3.0来了
2025-09-30 21:34:24
100万亿Token揭示今年AI趋势,硅谷的这份报告火了
2025-12-09 14:39:59
DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国
2025-07-18 18:42:56
千问3.5登顶Hugging Face,前十开源模型中国占据8席
2026-02-24 15:53:18
阿里达摩院首次开源具身智能“三大件”机器人上下文协议
2025-08-11 13:01:00
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
字节突然开源Seed-OSS,512K上下文主流4倍长度,推理能力刷纪录
2025-08-21 14:33:12
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
腾讯混元 0.5B、1.8B、4B、7B模型发布
2025-08-04 16:02:12
OpenAI 推出两款开源模型 gpt-oss-120b / 20b,性能逼近 o4-mini/o3-mini
2025-08-06 08:23:05
下载超 10 亿、衍生模型破 20 万,阿里千问刷新全球开源模型纪录
2026-01-21 16:18:32
最强开源大模型除夕登场!397B参数千问3.5超越Gemini 3,百万Tokens低至8毛
2026-02-16 19:34:51
手机也能跑大模型,腾讯混元推出多款小尺寸开源模型
2025-08-04 17:00:39
664 文章
497869 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18