
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
国产开源模型再添亮点,智源研究院联合上海交通大学等机构发布新一代超长视频理解模型Video-XL-2。该模型可在单张显卡上高效处理长达万帧的视频输入,编码2048帧视频仅需12秒。
相较于上一代Video-XL,Video-XL-2在效果、长度、速度三方面全面升级。在MLVU、Video-MME、LVBench等主流评测中表现优异,接近甚至超越部分720亿参数大模型。同时,模型架构包含视觉编码器、动态Token合成模块及大语言模型三大核心组件,采用四阶段渐进式训练策略,确保强大理解力。
此外,Video-XL-2通过分段式预装填与双粒度KV解码机制优化效率,在单张24GB显卡上支持千帧视频处理,80GB显卡上可达万帧级。其在影视内容分析、异常行为监测等领域应用前景广阔,项目代码与模型已全面开源。
原文链接
今日,《科创板日报》报道,智源研究院联合上海交通大学等机构推出新一代超长视频理解模型Video-XL-2。该模型突破性地提升了视频处理时长,可在单张显卡上高效处理长达万帧的视频输入,大幅拓展了应用场景。目前,模型权重已全面开源,面向社区开发者共享资源。这一技术进展标志着视频理解领域迈入新阶段,为学术研究及产业应用提供强大支持。
原文链接
标题:3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,准确率超98%
正文:
3B模型超越Meta 7B模型,超长视频理解SOTA刷新!上海交通大学、北京智源研究院和特伦托大学联合推出的Video-XL-Pro,实现近万帧视频单卡处理,大海捞针准确率超98%。
当前多模态大模型...
原文链接
标题:Mamba混合架构让显存消耗减半,轻松处理10万视频token
长视频理解迎来新突破!滑铁卢大学陈文虎团队联合多家机构推出Mamba-Transformer混合模型Vamba。不同于传统压缩视频token的方式,Vamba通过优化架构设计,提升了处理视频token的效率。实验显示,Vamb...
原文链接
标题:Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档
VideoRoPE团队投稿
量子位 | 公众号 QbitAI
Llama都在用的RoPE(旋转位置嵌入)被扩展至视频领域,增强了长视频理解和检索能力。复旦大学与上海AI实验室等机构提出了VideoRoPE,并明确了将RoPE应用于...
原文链接
达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA
7B大小的视频理解模型新SOTA,由达摩院发布的Video LLaMA 3,以图像为中心构建新一代多模态视频-语言模型。在通用视频理解、时间推理和长视频理解三个核心维度中,VideoLLaMA 3表现优异,超越多数基线模型。
适用于...
原文链接
Meta与斯坦福大学合作,于12月18日推出Apollo开源AI模型系列,旨在显著提升机器对视频的理解能力。当前,尽管AI在图像和文本处理上有显著进展,但视频处理仍是难题。Apollo模型通过两个组件解决此问题:一个处理单帧,另一个追踪时间变化中的对象和场景。研究显示,采用分阶段训练方法并优化数据集配比,能显著提升模型性能。Apollo模型在不同规模上表现优异,小至Apollo-3B,大至Apollo-7B,均超越同类产品。Meta已开源Apollo的代码和模型权重,并在Hugging Face平台上提供公开演示。
原文链接
标题:空间智能版ImageNet来了!李飞飞吴佳俊团队出品
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
斯坦福大学李飞飞和吴佳俊团队发布了空间智能版ImageNet,名为HourVideo,用于评估多模态模型对长达一小时视频的理解能力。
HourVideo包含500个来自Ego4D数据集的...
原文链接
标题:突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
当前评测基准存在几大缺陷:多注重短视频,难以考察长时序理解能力;评估任务较简单,未涉及细粒度能力;问题与画面时序性关联弱;对开放性问题的评估不够精准。针对这些问题,MMBench-Video应运...
原文链接
近日,智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学推出了一款名为Video-XL的超长视频理解大模型。这款模型能够处理长达数小时的视频,并且仅需一块80G显存的显卡即可完成。Video-XL在多个主流长视频理解基准评测中表现出色,尤其是在视频“大海捞针”任务中,准确率达到近95%,远超现有模型。
Video-XL利用语言模型的压缩能力,对长视觉序列进行无损压缩,从而保留了短视频理解的能力,同时在长视频理解上展现出出色的泛化能力。该模型在电影摘要、视频异常检测、广告植入检测等多个应用场景中展现出广泛应用价值,有望成为长视频理解领域的得力助手。
目前,Video-XL的模型代码已开源,促进了全球多模态视频理解研究社区的技术共享与合作。该技术突破为长视频理解和处理提供了新思路。
原文链接
加载更多

暂无内容