1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Mamba混合架构让显存消耗减半,轻松处理10万视频token

长视频理解迎来新突破!滑铁卢大学陈文虎团队联合多家机构推出Mamba-Transformer混合模型Vamba。不同于传统压缩视频token的方式,Vamba通过优化架构设计,提升了处理视频token的效率。实验显示,Vamba在同等硬件条件下可处理的视频帧数提升4倍,显存消耗减少一半以上,单步训练速度翻倍,同时完整保留了视频的时空特征。

Vamba在LVBench长视频理解基准测试中,相较现有高效模型性能提升约4.3%,并在多个长视频评价标准上表现优异。团队已开源代码、模型权重及相关脚本。

Vamba的核心在于将计算成本高昂的因果自注意力机制拆分为两部分:一是利用交叉注意力机制结合文本和视频信息,二是借助Mamba-2模块基于状态空间模型处理视频token。这种方法不仅降低了计算复杂度,还有效减少了显存占用。

论文地址:https://arxiv.org/abs/2503.11579
项目主页:https://tiger-ai-lab.github.io/Vamba/
代码仓库:https://github.com/TIGER-AI-Lab/Vamba
模型权重:https://huggingface.co/TIGER-Lab/Vamba-Qwen2-VL-7B

原文链接
本文链接:https://kx.umi6.com/article/16251.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限
2024-10-28 17:58:51
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
2025-05-04 23:17:35
长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
2025-03-27 13:47:30
24小时热文
更多
扫一扫体验小程序