长视频理解新突破！Mamba混合架构让显存消耗腰斩，处理10万视频token不费力

2025-03-27 13:47:30

代码编织者

发布在

科普

阅读：758

标题：Mamba混合架构让显存消耗减半，轻松处理10万视频token

长视频理解迎来新突破！滑铁卢大学陈文虎团队联合多家机构推出Mamba-Transformer混合模型Vamba。不同于传统压缩视频token的方式，Vamba通过优化架构设计，提升了处理视频token的效率。实验显示，Vamba在同等硬件条件下可处理的视频帧数提升4倍，显存消耗减少一半以上，单步训练速度翻倍，同时完整保留了视频的时空特征。

Vamba在LVBench长视频理解基准测试中，相较现有高效模型性能提升约4.3%，并在多个长视频评价标准上表现优异。团队已开源代码、模型权重及相关脚本。

Vamba的核心在于将计算成本高昂的因果自注意力机制拆分为两部分：一是利用交叉注意力机制结合文本和视频信息，二是借助Mamba-2模块基于状态空间模型处理视频token。这种方法不仅降低了计算复杂度，还有效减少了显存占用。

论文地址：https://arxiv.org/abs/2503.11579
项目主页：https://tiger-ai-lab.github.io/Vamba/
代码仓库：https://github.com/TIGER-AI-Lab/Vamba
模型权重：https://huggingface.co/TIGER-Lab/Vamba-Qwen2-VL-7B

原文链接

本文链接：https://kx.umi6.com/article/16251.html

转载请注明文章出处

Mamba混合架构