单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
国产开源模型再添亮点,智源研究院联合上海交通大学等机构发布新一代超长视频理解模型Video-XL-2。该模型可在单张显卡上高效处理长达万帧的视频输入,编码2048帧视频仅需12秒。
相较于上一代Video-XL,Video-XL-2在效果、长度、速度三方面全面升级。在MLVU、Video-MME、LVBench等主流评测中表现优异,接近甚至超越部分720亿参数大模型。同时,模型架构包含视觉编码器、动态Token合成模块及大语言模型三大核心组件,采用四阶段渐进式训练策略,确保强大理解力。
此外,Video-XL-2通过分段式预装填与双粒度KV解码机制优化效率,在单张24GB显卡上支持千帧视频处理,80GB显卡上可达万帧级。其在影视内容分析、异常行为监测等领域应用前景广阔,项目代码与模型已全面开源。
原文链接
本文链接:https://kx.umi6.com/article/19693.html
转载请注明文章出处
相关推荐
换一换
腾讯混元 0.5B、1.8B、4B、7B模型发布
2025-08-04 16:02:12
OpenAI进入新品发布周期 开源模型GPT-OSS打头阵
2025-08-06 08:26:35
让64张卡像一张卡!浪潮信息发布新一代AI超节点,支持四大国产开源模型同时运行
2025-08-11 16:03:42
可能是目前效果最好的开源生图模型,混元生图3.0来了
2025-09-30 21:34:24
开放全栈!超越π0,具身智能基础大模型迎来真·开源,开发者狂喜
2025-09-08 13:58:15
美国“SPAC之王”查马斯:公司已转用Kimi K2
2025-10-11 19:32:28
昆仑万维发布并开源 Skywork-R1V 3.0,多模态推理能力逼近人类专家水平
2025-07-09 11:04:18
阿里开源全模态大模型Qwen3-Omni 可像人类一样听说写
2025-09-24 16:50:21
刚刚,OpenAI发布2款开源模型,手机笔记本也能跑,北大校友扛大旗
2025-08-06 07:23:51
手机也能跑大模型,腾讯混元推出多款小尺寸开源模型
2025-08-04 17:00:39
MiniMax发布全球首个混合架构开源模型M1 称强化训练成本仅53万美金
2025-06-17 19:29:56
AI生图新的王者诞生了!腾讯混元图像3.0登顶榜一
2025-10-05 17:24:12
谷歌前 CEO 施密特称中国领先的大模型皆为开源,呼吁中美开展合作
2025-07-26 16:43:43
521 文章
259881 浏览
24小时热文
更多
-
2025-10-25 10:17:38 -
2025-10-25 08:14:19 -
2025-10-24 22:57:14