标题:Mamba混合架构让显存消耗减半,轻松处理10万视频token
长视频理解迎来新突破!滑铁卢大学陈文虎团队联合多家机构推出Mamba-Transformer混合模型Vamba。不同于传统压缩视频token的方式,Vamba通过优化架构设计,提升了处理视频token的效率。实验显示,Vamba在同等硬件条件下可处理的视频帧数提升4倍,显存消耗减少一半以上,单步训练速度翻倍,同时完整保留了视频的时空特征。
Vamba在LVBench长视频理解基准测试中,相较现有高效模型性能提升约4.3%,并在多个长视频评价标准上表现优异。团队已开源代码、模型权重及相关脚本。
Vamba的核心在于将计算成本高昂的因果自注意力机制拆分为两部分:一是利用交叉注意力机制结合文本和视频信息,二是借助Mamba-2模块基于状态空间模型处理视频token。这种方法不仅降低了计算复杂度,还有效减少了显存占用。
论文地址:https://arxiv.org/abs/2503.11579
项目主页:https://tiger-ai-lab.github.io/Vamba/
代码仓库:https://github.com/TIGER-AI-Lab/Vamba
模型权重:https://huggingface.co/TIGER-Lab/Vamba-Qwen2-VL-7B
原文链接
本文链接:https://kx.umi6.com/article/16251.html
转载请注明文章出处
相关推荐
换一换
一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限
2024-10-28 17:58:51
长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
2025-03-27 13:47:30
GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难
2024-06-22 17:28:20
苹果新 AI 模型长视频理解夺冠,小至 1B 版本也领先对手
2025-08-23 16:02:10
Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档
2025-02-19 12:46:15
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
2025-05-04 23:17:35
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
2024-11-11 16:11:01
下载超 10 亿、衍生模型破 20 万,阿里千问刷新全球开源模型纪录
2026-01-21 16:18:32
白宫加密与AI顾问 :美国传统银行与加密行业最终将融合为数字资产行业
2026-01-22 16:00:45
知名游戏女主播怒斥AI修图 花大手笔清除不雅照
2026-01-22 08:43:34
OpenAI 回应 ChatGPT 出现广告:平台 95% 是免费用户,会坚守一些原则
2026-01-21 13:13:21
微软AI负责人预言:未来五年内人人都将有AI伴侣
2026-01-21 22:27:36
广东:推广邮政快递末端智能收派服务 推动无人车、无人机与智能快件箱协同配送
2026-01-21 17:22:35
613 文章
404140 浏览
24小时热文
更多
-
2026-01-23 00:20:44 -
2026-01-22 23:18:34 -
2026-01-22 23:17:29