达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA
7B大小的视频理解模型新SOTA,由达摩院发布的Video LLaMA 3,以图像为中心构建新一代多模态视频-语言模型。在通用视频理解、时间推理和长视频理解三个核心维度中,VideoLLaMA 3表现优异,超越多数基线模型。
适用于端侧的2B大小的Video LLaMA 3,在图像理解上同样表现出色。在多项基准测试中,如InfoVQA和MathVista数学推理任务中,VideoLLaMA 3均超越之前的成绩。
VideoLLaMA 3以图片为中心的设计理念贯穿整个模型架构和训练过程。通过高质量的图片文本数据为视频理解打下基础,仅使用3M视频文本数据,就实现了全面超越同参数量开源模型的视频理解能力。
目前,VideoLLaMA 3已在HuggingFace上提供图像和视频理解的demo。只需上传图片或视频并提出问题,即可体验模型的高效响应。
VideoLLaMA 3的关键在于其以图像为中心的训练范式,包含视觉编码器适配、视觉语言对齐、多任务微调和视频微调四个关键内容。模型框架包括任意分辨率视觉标记化(AVT)和差分帧剪枝器(DiffFP),以优化视频处理效率。
此外,高质量数据对VideoLLaMA 3的性能至关重要。团队构建了包含700万图像-字幕对的VL3Syn7M数据集,并采用多种过滤和聚类方法确保数据质量。
原文链接
本文链接:https://kx.umi6.com/article/13370.html
转载请注明文章出处
相关推荐
换一换
悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%
2024-06-18 15:31:25
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
2025-06-04 14:20:36
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
2024-10-30 17:14:43
1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR
2025-05-31 13:06:45
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
2025-08-01 19:06:23
达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩
2025-02-14 12:34:39
4090玩转大场景几何重建,RGB渲染和几何精度达SOTA|上海AI Lab&西工大新研究
2025-04-13 19:51:00
视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊
2025-11-28 17:39:28
美团发布高效推理模型 LongCat-Flash-Thinking,达到 SOTA 水平
2025-09-22 15:58:35
阶跃星辰发布端到端语音大模型 Step-Audio 2 mini,多个基准测试取得 SOTA 成绩
2025-09-01 15:21:09
腾讯混元 OCR 模型宣布开源:参数仅 1B,多项核心能力 SOTA
2025-11-25 14:56:08
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
Claude Opus 4.1火速发布!坐稳编程之王,官方:马上还有大更新
2025-08-06 11:26:58
666 文章
433160 浏览
24小时热文
更多
-
2026-01-23 17:11:08 -
2026-01-23 17:10:00 -
2026-01-23 17:08:55