长视频理解 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

苹果新 AI 模型长视频理解夺冠，小至 1B 版本也领先对手

8月23日，苹果研究团队开源了SlowFast-LLaVA-1.5长视频多模态大语言模型，在1B、3B、7B参数规模下刷新LongVideoBench、MLVU等基准纪录。该模型通过创新双流设计，‘慢流’捕捉高分辨率场景细节，‘快流’追踪运动变化，解决现有模型冗余帧和上下文窗口限制等问题。新版本在视频与图像理解任务中表现出色，涵盖知识问答、数学推理及OCR等领域，并兼容公开数据集训练，已在GitHub和Hugging Face开源。

原文链接

智能维度跳跃

08-23 16:02:10

SlowFast-LLaVA-1.5

苹果

长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

智源研究院宣布开源超长视频理解模型Video-XL-2

今日，《科创板日报》报道，智源研究院联合上海交通大学等机构推出新一代超长视频理解模型Video-XL-2。该模型突破性地提升了视频处理时长，可在单张显卡上高效处理长达万帧的视频输入，大幅拓展了应用场景。目前，模型权重已全面开源，面向社区开发者共享资源。这一技术进展标志着视频理解领域迈入新阶段，为学术研究及产业应用提供强大支持。

原文链接

神经网络领航员

06-03 12:58:08

Video-XL-2

智源研究院

超长视频理解模型

分享至

打开微信扫一扫

内容投诉

生成图片

3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，大海捞针准确率超98%

标题：3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，准确率超98% 正文： 3B模型超越Meta 7B模型，超长视频理解SOTA刷新！上海交通大学、北京智源研究院和特伦托大学联合推出的Video-XL-Pro，实现近万帧视频单卡处理，大海捞针准确率超98%。当前多模态大模型...

原文链接

Oasis

05-04 23:17:35

Video-XL-Pro

重构式token压缩

长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

长视频理解新突破！Mamba混合架构让显存消耗腰斩，处理10万视频token不费力

标题：Mamba混合架构让显存消耗减半，轻松处理10万视频token 长视频理解迎来新突破！滑铁卢大学陈文虎团队联合多家机构推出Mamba-Transformer混合模型Vamba。不同于传统压缩视频token的方式，Vamba通过优化架构设计，提升了处理视频token的效率。实验显示，Vamb...

原文链接

代码编织者

03-27 13:47:30

Mamba混合架构

Vamba模型

长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

Llama都在用的RoPE有了视频版，长视频理解/检索绝佳拍档

标题：Llama都在用的RoPE有了视频版，长视频理解/检索绝佳拍档 VideoRoPE团队投稿量子位 | 公众号 QbitAI Llama都在用的RoPE（旋转位置嵌入）被扩展至视频领域，增强了长视频理解和检索能力。复旦大学与上海AI实验室等机构提出了VideoRoPE，并明确了将RoPE应用于...

原文链接

AGI探路者

02-19 12:46:15

VideoRoPE

检索

长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

标题：空间智能版ImageNet来了！李飞飞吴佳俊团队出品衡宇发自凹非寺量子位 | 公众号 QbitAI 斯坦福大学李飞飞和吴佳俊团队发布了空间智能版ImageNet，名为HourVideo，用于评估多模态模型对长达一小时视频的理解能力。 HourVideo包含500个来自Ego4D数据集的...

原文链接

代码编织者Nexus

11-11 16:11:01

ImageNet

多模态模型

长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

一张显卡“看懂”一部电影：智源联合高校开源 Video-XL，打破长视频理解极限

近日，智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学推出了一款名为Video-XL的超长视频理解大模型。这款模型能够处理长达数小时的视频，并且仅需一块80G显存的显卡即可完成。Video-XL在多个主流长视频理解基准评测中表现出色，尤其是在视频“大海捞针”任务中，准确率达到近95%，远超现有模型。 Video-XL利用语言模型的压缩能力，对长视觉序列进行无损压缩，从而保留了短视频理解的能力，同时在长视频理解上展现出出色的泛化能力。该模型在电影摘要、视频异常检测、广告植入检测等多个应用场景中展现出广泛应用价值，有望成为长视频理解领域的得力助手。目前，Video-XL的模型代码已开源，促进了全球多模态视频理解研究社区的技术共享与合作。该技术突破为长视频理解和处理提供了新思路。

原文链接

阿达旻

10-28 17:58:51

Video-XL

显卡

长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

超长视频理解难平衡性能和效率

标题：超长视频理解：平衡性能与效率的新突破仅需一块80G显卡，大模型就能理解小时级超长视频。智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校推出最新成果——超长视频理解大模型Video-XL。该模型借助语言模型（LLM）的压缩能力处理长视觉序列，不仅保持了短视频理解能力...

原文链接

像素宇宙

10-28 17:57:47

性能平衡

视觉压缩

超长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-4o 差点没及格！首个多任务长视频评测基准，它有亿点难

【新闻速递】近日，由智源、北邮、北大和浙大等高校合作推出的首个多任务长视频理解评测基准MLVU发布，评估模型对长视频的全面掌握。GPT-4o在其中的单选正确率仅约65%，显示现有模型在处理长达数分钟至两小时的视频时面临挑战。研究发现，视频时长增加会导致性能下滑，提升上下文理解和图像解析能力至关重要。MLVU涵盖广泛时长和来源的视频，涉及9类任务，旨在测试模型的全面、单细节和多细节理解能力。实验结果显示，开源与闭源模型间存在显著差距，提示了未来长视频理解模型发展的方向。

原文链接