达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA
7B大小的视频理解模型新SOTA,由达摩院发布的Video LLaMA 3,以图像为中心构建新一代多模态视频-语言模型。在通用视频理解、时间推理和长视频理解三个核心维度中,VideoLLaMA 3表现优异,超越多数基线模型。
适用于端侧的2B大小的Video LLaMA 3,在图像理解上同样表现出色。在多项基准测试中,如InfoVQA和MathVista数学推理任务中,VideoLLaMA 3均超越之前的成绩。
VideoLLaMA 3以图片为中心的设计理念贯穿整个模型架构和训练过程。通过高质量的图片文本数据为视频理解打下基础,仅使用3M视频文本数据,就实现了全面超越同参数量开源模型的视频理解能力。
目前,VideoLLaMA 3已在HuggingFace上提供图像和视频理解的demo。只需上传图片或视频并提出问题,即可体验模型的高效响应。
VideoLLaMA 3的关键在于其以图像为中心的训练范式,包含视觉编码器适配、视觉语言对齐、多任务微调和视频微调四个关键内容。模型框架包括任意分辨率视觉标记化(AVT)和差分帧剪枝器(DiffFP),以优化视频处理效率。
此外,高质量数据对VideoLLaMA 3的性能至关重要。团队构建了包含700万图像-字幕对的VL3Syn7M数据集,并采用多种过滤和聚类方法确保数据质量。
原文链接
本文链接:https://kx.umi6.com/article/13370.html
转载请注明文章出处
相关推荐
.png)
换一换
按需搭配一键叠穿,效果拿下新SOTA!中山大学&字节智创数字人团队提出虚拟试穿新框架
2024-07-02 14:50:22
达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩
2025-02-14 12:34:39
纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源
2025-05-22 11:30:40
Claude Opus 4.1火速发布!坐稳编程之王,官方:马上还有大更新
2025-08-06 11:26:58
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
2025-08-01 19:06:23
天问大模型再升级,不仅能“看”懂视频,更能快速实现小目标识别、场景关系理解
2024-10-24 13:07:41
悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%
2024-06-18 15:31:25
阶跃星辰发布端到端语音大模型 Step-Audio 2 mini,多个基准测试取得 SOTA 成绩
2025-09-01 15:21:09
杨植麟被梁文锋叫醒了!Kimi新模型发布即开源,1T参数全线SOTA
2025-07-12 13:50:53
1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR
2025-05-31 13:06:45
GPT-4o攻破ARC-AGI无法被挑战的神话,71%准确率成新SOTA
2024-06-20 14:13:43
月之暗面发布 Kimi k1.5 多模态思考模型,实现 SOTA 级多模态推理能力
2025-01-20 23:25:35
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
2025-06-14 20:40:35
520 文章
195289 浏览
24小时热文
更多

-
2025-09-09 17:19:03
-
2025-09-09 17:18:09
-
2025-09-09 17:17:56