达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA

2025-02-14 12:34:39

达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩

AI幻想空间站

发布在

科普

阅读：370

达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA

7B大小的视频理解模型新SOTA，由达摩院发布的Video LLaMA 3，以图像为中心构建新一代多模态视频-语言模型。在通用视频理解、时间推理和长视频理解三个核心维度中，VideoLLaMA 3表现优异，超越多数基线模型。

适用于端侧的2B大小的Video LLaMA 3，在图像理解上同样表现出色。在多项基准测试中，如InfoVQA和MathVista数学推理任务中，VideoLLaMA 3均超越之前的成绩。

VideoLLaMA 3以图片为中心的设计理念贯穿整个模型架构和训练过程。通过高质量的图片文本数据为视频理解打下基础，仅使用3M视频文本数据，就实现了全面超越同参数量开源模型的视频理解能力。

目前，VideoLLaMA 3已在HuggingFace上提供图像和视频理解的demo。只需上传图片或视频并提出问题，即可体验模型的高效响应。

VideoLLaMA 3的关键在于其以图像为中心的训练范式，包含视觉编码器适配、视觉语言对齐、多任务微调和视频微调四个关键内容。模型框架包括任意分辨率视觉标记化（AVT）和差分帧剪枝器（DiffFP），以优化视频处理效率。

此外，高质量数据对VideoLLaMA 3的性能至关重要。团队构建了包含700万图像-字幕对的VL3Syn7M数据集，并采用多种过滤和聚类方法确保数据质量。

原文链接

本文链接：https://kx.umi6.com/article/13370.html

转载请注明文章出处

SOTA

VideoLLaMA3

视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

571 文章

275539 浏览

24小时热文