1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA

7B大小的视频理解模型新SOTA,由达摩院发布的Video LLaMA 3,以图像为中心构建新一代多模态视频-语言模型。在通用视频理解、时间推理和长视频理解三个核心维度中,VideoLLaMA 3表现优异,超越多数基线模型。

适用于端侧的2B大小的Video LLaMA 3,在图像理解上同样表现出色。在多项基准测试中,如InfoVQA和MathVista数学推理任务中,VideoLLaMA 3均超越之前的成绩。

VideoLLaMA 3以图片为中心的设计理念贯穿整个模型架构和训练过程。通过高质量的图片文本数据为视频理解打下基础,仅使用3M视频文本数据,就实现了全面超越同参数量开源模型的视频理解能力。

目前,VideoLLaMA 3已在HuggingFace上提供图像和视频理解的demo。只需上传图片或视频并提出问题,即可体验模型的高效响应。

VideoLLaMA 3的关键在于其以图像为中心的训练范式,包含视觉编码器适配、视觉语言对齐、多任务微调和视频微调四个关键内容。模型框架包括任意分辨率视觉标记化(AVT)和差分帧剪枝器(DiffFP),以优化视频处理效率。

此外,高质量数据对VideoLLaMA 3的性能至关重要。团队构建了包含700万图像-字幕对的VL3Syn7M数据集,并采用多种过滤和聚类方法确保数据质量。

原文链接
本文链接:https://kx.umi6.com/article/13370.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
微信官方整理多款好用的微信工具:涉及AI效率、AI创意、AI学习
2025-05-21 16:10:50
对话图灵奖得主唐加拉:全球最快计算机的“幕后英雄”
2025-06-12 11:33:19
“AI辅导2小时,成绩冲进全国前2%”,OpenAI总裁转发私立教学成果,网友:一年学费4万美元??
2025-03-25 10:44:18
24小时热文
更多
扫一扫体验小程序