1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:超长视频理解:平衡性能与效率的新突破

仅需一块80G显卡,大模型就能理解小时级超长视频。智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校推出最新成果——超长视频理解大模型Video-XL。

该模型借助语言模型(LLM)的压缩能力处理长视觉序列,不仅保持了短视频理解能力,还在长视频理解方面展现优异的泛化能力。相较于同等规模的模型,Video-XL在多个长视频理解基准评测中排名第一。

Video-XL在效率与性能间实现良好平衡,只需一块80G显存的显卡即可处理2048帧输入(对小时级长度视频采样),并在视频“海中捞针”任务中达到近95%的准确率。

长视频理解是多模态大模型的关键能力之一,也是迈向通用人工智能(AGI)的重要一步。然而,现有模型在处理10分钟以上超长视频时,仍面临性能差和效率低的问题。Video-XL解决了这一难题,并已开源。

未来,Video-XL有望在电影摘要、视频异常检测、广告植入检测等场景中发挥重要作用。

Video-XL的模型结构由视觉编码器(CLIP)、视觉-语言映射器(2-layer MLP)和语言模型(Qwen-7B)组成。它建立了一个统一的视觉编码机制,处理多模态数据时能灵活应对不同格式。

为了提高长视频理解能力,Video-XL引入了视觉上下文隐空间压缩技术,通过语言模型的上下文建模能力实现无损压缩。这种压缩方式减少了视觉信息损失,提升了模型性能。

Video-XL通过优化在压缩视觉信号下的生成质量进行训练。模型在多个主流视频理解基准评测中表现优异,特别是在长视频理解和超长视频理解任务上超越了现有模型。此外,Video-XL还通过自动化流程创建了高质量的VICO数据集,进一步增强了其长视频理解能力。

Video-XL模型现已开源,促进了全球多模态视频理解研究社区的合作与技术共享。论文和模型链接分别为:https://arxiv.org/abs/2409.14485 和 https://huggingface.co/sy1998/Video_XL。

原文链接
本文链接:https://kx.umi6.com/article/7958.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek新模型被硅谷夸疯了!“谷歌核心机密被开源”
2025-10-21 10:24:34
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
2025-10-21 08:19:45
超长视频理解难平衡性能和效率
2024-10-28 17:57:47
最高法:打击滥用AI换脸等行为 斩断为电诈提供“技术助攻”的链条
2026-03-09 15:54:50
鹅厂门口爆满了!腾讯工程师在总部楼下免费安装OpenClaw
2026-03-06 15:12:11
全民疯抢!60岁大爷大妈也开始养龙虾了 官方:极易引发网络攻击、信息泄露
2026-03-08 11:58:45
全网刷屏的“龙虾” 真的劝你不要盲目跟风!
2026-03-09 15:51:25
人力资源社会保障部部长:正研究措施发挥人工智能创造新岗位和赋能传统岗位作用
2026-03-07 11:27:41
首个物理AI数据基座平台“无垠”落户浙江,专治机器人数据荒,家庭工业商业场景全覆盖
2026-03-09 19:00:56
劝视频博主别拿龙虾起号 7×24小时全自动 碳基生物真卷不过
2026-03-07 00:47:12
美国国防部官员称目前未与Anthropic进行任何实质性谈判
2026-03-06 11:57:53
国产AI短剧《霍去病》火到海外 播放量超5亿!3000元成本、3人团队5天产出80集
2026-03-06 17:20:41
央视点赞千问APP,“AI办事”让人工智能走进日常生活
2026-03-07 16:42:54
24小时热文
更多
扫一扫体验小程序