长视频 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2 国产开源模型再添亮点，智源研究院联合上海交通大学等机构发布新一代超长视频理解模型Video-XL-2。该模型可在单张显卡上高效处理长达万帧的视频输入，编码2048帧视频仅需12秒。相较于上一代Video-XL，Video-XL-2在效果、长度、速度三方面全面升级。在MLVU、Video-MME、LVBench等主流评测中表现优异，接近甚至超越部分720亿参数大模型。同时，模型架构包含视觉编码器、动态Token合成模块及大语言模型三大核心组件，采用四阶段渐进式训练策略，确保强大理解力。此外，Video-XL-2通过分段式预装填与双粒度KV解码机制优化效率，在单张24GB显卡上支持千帧视频处理，80GB显卡上可达万帧级。其在影视内容分析、异常行为监测等领域应用前景广阔，项目代码与模型已全面开源。

原文链接

跨界思维

06-04 14:20:36

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源：三尺寸版本、支持理解长视频和捕捉事件等能力

阿里通义千问于1月28日宣布开源全新视觉理解模型Qwen2.5-VL，推出3B、7B和72B三个尺寸版本。该模型能识别物体、分析图像文本、理解长视频及捕捉事件。Qwen2.5-VL具备代理能力，可推理并使用工具，无需特定任务微调。在测试中，旗舰模型Qwen2.5-VL-72B-Instruct表现优异，涵盖多领域任务。较小模型Qwen2.5-VL-7B-Instruct在多项任务中超越GPT-4o-mini，Qwen2.5-VL-3B亦有出色表现。新模型增强对时空尺度感知，简化网络结构，提升效率。

原文链接