1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Mamba混合架构让显存消耗减半,轻松处理10万视频token

长视频理解迎来新突破!滑铁卢大学陈文虎团队联合多家机构推出Mamba-Transformer混合模型Vamba。不同于传统压缩视频token的方式,Vamba通过优化架构设计,提升了处理视频token的效率。实验显示,Vamba在同等硬件条件下可处理的视频帧数提升4倍,显存消耗减少一半以上,单步训练速度翻倍,同时完整保留了视频的时空特征。

Vamba在LVBench长视频理解基准测试中,相较现有高效模型性能提升约4.3%,并在多个长视频评价标准上表现优异。团队已开源代码、模型权重及相关脚本。

Vamba的核心在于将计算成本高昂的因果自注意力机制拆分为两部分:一是利用交叉注意力机制结合文本和视频信息,二是借助Mamba-2模块基于状态空间模型处理视频token。这种方法不仅降低了计算复杂度,还有效减少了显存占用。

论文地址:https://arxiv.org/abs/2503.11579
项目主页:https://tiger-ai-lab.github.io/Vamba/
代码仓库:https://github.com/TIGER-AI-Lab/Vamba
模型权重:https://huggingface.co/TIGER-Lab/Vamba-Qwen2-VL-7B

原文链接
本文链接:https://kx.umi6.com/article/16251.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
2025-05-04 23:17:35
GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难
2024-06-22 17:28:20
长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
2025-03-27 13:47:30
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
2024-11-11 16:11:01
一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限
2024-10-28 17:58:51
Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档
2025-02-19 12:46:15
苹果新 AI 模型长视频理解夺冠,小至 1B 版本也领先对手
2025-08-23 16:02:10
华泰证券:超配电力链中上游品种 内需与AI是能源之外的主要线索
2026-03-06 20:36:01
麦肯锡:AI不是对手而是工具 善用AI的毕业生就业更吃香
2026-03-06 23:43:55
OpenAI聘请OpenClaw AI智能体开发者斯坦伯格
2026-03-09 21:13:27
黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队
2026-03-06 23:41:48
“办事”成全球AI新焦点:谷歌OpenAI相继投入 千问再加码
2026-03-06 18:25:27
网文作家遇职业危机!AI写作48小时生成500万字长篇小说
2026-03-08 15:12:48
24小时热文
更多
扫一扫体验小程序