达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA
7B大小的视频理解模型新SOTA,由达摩院发布的Video LLaMA 3,以图像为中心构建新一代多模态视频-语言模型。在通用视频理解、时间推理和长视频理解三个核心维度中,VideoLLaMA 3表现优异,超越多数基线模型。
适用于端侧的2B大小的Video LLaMA 3,在图像理解上同样表现出色。在多项基准测试中,如InfoVQA和MathVista数学推理任务中,VideoLLaMA 3均超越之前的成绩。
VideoLLaMA 3以图片为中心的设计理念贯穿整个模型架构和训练过程。通过高质量的图片文本数据为视频理解打下基础,仅使用3M视频文本数据,就实现了全面超越同参数量开源模型的视频理解能力。
目前,VideoLLaMA 3已在HuggingFace上提供图像和视频理解的demo。只需上传图片或视频并提出问题,即可体验模型的高效响应。
VideoLLaMA 3的关键在于其以图像为中心的训练范式,包含视觉编码器适配、视觉语言对齐、多任务微调和视频微调四个关键内容。模型框架包括任意分辨率视觉标记化(AVT)和差分帧剪枝器(DiffFP),以优化视频处理效率。
此外,高质量数据对VideoLLaMA 3的性能至关重要。团队构建了包含700万图像-字幕对的VL3Syn7M数据集,并采用多种过滤和聚类方法确保数据质量。
原文链接
本文链接:https://kx.umi6.com/article/13370.html
转载请注明文章出处
相关推荐
换一换
GPT-4o攻破ARC-AGI无法被挑战的神话,71%准确率成新SOTA
2024-06-20 14:13:43
天问大模型再升级,不仅能“看”懂视频,更能快速实现小目标识别、场景关系理解
2024-10-24 13:07:41
Claude Opus 4.1火速发布!坐稳编程之王,官方:马上还有大更新
2025-08-06 11:26:58
智元发布第二代一体化具身大小脑系统 GenieReasoner,推理能力达 SOTA
2026-01-01 18:27:20
腾讯混元 OCR 模型宣布开源:参数仅 1B,多项核心能力 SOTA
2025-11-25 14:56:08
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
2025-06-04 14:20:36
月之暗面发布k1.5多模态思考模型
2025-01-20 23:27:40
姚顺宇谷歌首秀,Gemini新模型刷爆SOTA:人类仅剩7人捍卫碳基编程
2026-02-13 15:24:22
阶跃星辰发布端到端语音大模型 Step-Audio 2 mini,多个基准测试取得 SOTA 成绩
2025-09-01 15:21:09
4090玩转大场景几何重建,RGB渲染和几何精度达SOTA|上海AI Lab&西工大新研究
2025-04-13 19:51:00
DeepSeek V4 Lite悄然更新:2000亿小参数性能逼近美国顶流
2026-03-03 11:57:04
Meta 推出 Apollo 开源模型,让 AI “看懂”视频
2024-12-18 14:33:56
多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA
2024-08-22 17:19:58
725 文章
560162 浏览
24小时热文
更多
-
2026-04-25 00:42:43 -
2026-04-24 23:43:31 -
2026-04-24 23:42:26