1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Mamba混合架构让显存消耗减半,轻松处理10万视频token

长视频理解迎来新突破!滑铁卢大学陈文虎团队联合多家机构推出Mamba-Transformer混合模型Vamba。不同于传统压缩视频token的方式,Vamba通过优化架构设计,提升了处理视频token的效率。实验显示,Vamba在同等硬件条件下可处理的视频帧数提升4倍,显存消耗减少一半以上,单步训练速度翻倍,同时完整保留了视频的时空特征。

Vamba在LVBench长视频理解基准测试中,相较现有高效模型性能提升约4.3%,并在多个长视频评价标准上表现优异。团队已开源代码、模型权重及相关脚本。

Vamba的核心在于将计算成本高昂的因果自注意力机制拆分为两部分:一是利用交叉注意力机制结合文本和视频信息,二是借助Mamba-2模块基于状态空间模型处理视频token。这种方法不仅降低了计算复杂度,还有效减少了显存占用。

论文地址:https://arxiv.org/abs/2503.11579
项目主页:https://tiger-ai-lab.github.io/Vamba/
代码仓库:https://github.com/TIGER-AI-Lab/Vamba
模型权重:https://huggingface.co/TIGER-Lab/Vamba-Qwen2-VL-7B

原文链接
本文链接:https://kx.umi6.com/article/16251.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难
2024-06-22 17:28:20
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
2025-05-04 23:17:35
一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限
2024-10-28 17:58:51
Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档
2025-02-19 12:46:15
苹果新 AI 模型长视频理解夺冠,小至 1B 版本也领先对手
2025-08-23 16:02:10
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
2024-11-11 16:11:01
印奇站上AI+车浪潮之巅:7个月,千里科技和华为「五五开」
2026-04-23 20:25:46
Nature封面:机器人乒乓球干翻人类职业选手
2026-04-23 15:11:01
知情人士:华为云码道代码智能体日活增长18倍 本周上线Skill市场
2026-04-22 19:24:53
日本紧急成立网络安全小组 应对Mythos引发的金融系统漏洞危机
2026-04-24 18:29:17
Anthropic二级市场估值升至万亿美元 超越OpenAI
2026-04-23 14:11:46
DeepSeek-V4发布,华为云首发适配
2026-04-24 18:26:00
AI太烧钱!Meta裁员8000人再冻6000职位
2026-04-24 16:19:57
24小时热文
更多
扫一扫体验小程序