达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA
7B大小的视频理解模型新SOTA,由达摩院发布的Video LLaMA 3,以图像为中心构建新一代多模态视频-语言模型。在通用视频理解、时间推理和长视频理解三个核心维度中,VideoLLaMA 3表现优异,超越多数基线模型。
适用于端侧的2B大小的Video LLaMA 3,在图像理解上同样表现出色。在多项基准测试中,如InfoVQA和MathVista数学推理任务中,VideoLLaMA 3均超越之前的成绩。
VideoLLaMA 3以图片为中心的设计理念贯穿整个模型架构和训练过程。通过高质量的图片文本数据为视频理解打下基础,仅使用3M视频文本数据,就实现了全面超越同参数量开源模型的视频理解能力。
目前,VideoLLaMA 3已在HuggingFace上提供图像和视频理解的demo。只需上传图片或视频并提出问题,即可体验模型的高效响应。
VideoLLaMA 3的关键在于其以图像为中心的训练范式,包含视觉编码器适配、视觉语言对齐、多任务微调和视频微调四个关键内容。模型框架包括任意分辨率视觉标记化(AVT)和差分帧剪枝器(DiffFP),以优化视频处理效率。
此外,高质量数据对VideoLLaMA 3的性能至关重要。团队构建了包含700万图像-字幕对的VL3Syn7M数据集,并采用多种过滤和聚类方法确保数据质量。
原文链接
本文链接:https://kx.umi6.com/article/13370.html
转载请注明文章出处
相关推荐
.png)
换一换
微信官方整理多款好用的微信工具:涉及AI效率、AI创意、AI学习
2025-05-21 16:10:50
对话图灵奖得主唐加拉:全球最快计算机的“幕后英雄”
2025-06-12 11:33:19
“AI辅导2小时,成绩冲进全国前2%”,OpenAI总裁转发私立教学成果,网友:一年学费4万美元??
2025-03-25 10:44:18
464 文章
82321 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21