视频理解 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

视频理解霸榜！快手Keye-VL旗舰模型重磅开源，多模态视频感知领头羊

视频理解霸榜！快手Keye-VL旗舰模型重磅开源，多模态视频感知领头羊快手新一代旗舰多模态大语言模型Keye-VL-671B-A37B正式发布！在保持基础模型强大通用能力的同时，该模型在视觉感知、跨模态对齐和复杂推理链路上进行了系统升级，实现了更精准的“看”、“想”、“答”。图像语义理解更可靠 ...

原文链接

代码编织者Nexus

11-28 17:39:28

Keye-VL

多模态

视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

标题：快手开源多模态推理模型Keye-VL 1.5：视频理解新标杆快手开源了新一代多模态推理模型Keye-VL 1.5，具备128k超长上下文窗口、0.1秒级视频定位能力及跨模态推理功能。相比此前版本，新模型在时序定位和跨模态推理上显著提升，并创新性提出Slow-Fast双路编码机制，在性能与...

原文链接

阿达旻

09-05 22:26:24

多模态模型

视频理解

跨模态推理

分享至

打开微信扫一扫

内容投诉

生成图片

行业首个：8B 参数面壁小钢炮 MiniCPM-V 4.5 开源，号称“最强端侧多模态模型”

8月26日，面壁智能宣布开源8B参数的MiniCPM-V 4.5多模态模型，称其为“最强端侧多模态模型”。该模型在视频理解、图片识别、复杂文档解析等任务中表现卓越，尤其具备行业首个高刷视频理解能力，支持每秒处理更多帧数，大幅超越Qwen2.5-VL 72B等模型。MiniCPM-V 4.5通过3D-Resampler技术实现96倍视觉压缩率，显著提升动态画面理解精度。此外，其在MotionBench、OpenCompass等多项榜单中达到同级SOTA水平，并兼顾性能与响应速度，提供常规模式和深度思考模式。模型已开源，可通过Github、Hugging Face及ModelScope获取。

原文链接

智慧棱镜

08-28 10:15:37

MiniCPM-V 4.5

多模态模型

高刷视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

2025年8月27日，面壁智能正式开源8B参数的MiniCPM-V 4.5多模态旗舰模型。该模型是行业首个具备“高刷”视频理解能力的多模态模型，在性能与效率上实现越级领先，超越Qwen2.5-VL 72B模型。MiniCPM-V 4.5最大支持6倍视频帧数量输入，达到96倍视觉压缩率，显著提升动态画面理解精度。在图片、长视频、OCR及文档解析等任务中均达SOTA水平，并支持短思考与长思考混合推理模式，适用于端侧设备。模型已开源，可通过GitHub、Hugging Face和ModelScope获取。

原文链接

电子诗篇

08-27 12:03:30

多模态模型

端侧推理

高刷视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

苹果新 AI 模型长视频理解夺冠，小至 1B 版本也领先对手

8月23日，苹果研究团队开源了SlowFast-LLaVA-1.5长视频多模态大语言模型，在1B、3B、7B参数规模下刷新LongVideoBench、MLVU等基准纪录。该模型通过创新双流设计，‘慢流’捕捉高分辨率场景细节，‘快流’追踪运动变化，解决现有模型冗余帧和上下文窗口限制等问题。新版本在视频与图像理解任务中表现出色，涵盖知识问答、数学推理及OCR等领域，并兼容公开数据集训练，已在GitHub和Hugging Face开源。

原文链接

智能维度跳跃

08-23 16:02:10

SlowFast-LLaVA-1.5

苹果

长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

大模型无法真正理解视频，GPT-4o正确率仅36%，南洋理工大团队提出新基准

标题：大模型难懂视频，GPT-4o正确率仅36%，南洋理工推出新基准正文：视频大型语言模型（Video LLMs）虽能描述视频内容并回答问题，但其是否真正“理解”视频仍是疑问。为解答这一问题，南洋理工大学S-Lab团队提出全新基准测试——Video Thinking Test（Video-T...

原文链接

星际Code流浪者

08-01 19:06:23

GPT-4o

Video-TT

视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2 国产开源模型再添亮点，智源研究院联合上海交通大学等机构发布新一代超长视频理解模型Video-XL-2。该模型可在单张显卡上高效处理长达万帧的视频输入，编码2048帧视频仅需12秒。相较于上一代Video-XL，Video-XL-2在效果、长度、速度三方面全面升级。在MLVU、Video-MME、LVBench等主流评测中表现优异，接近甚至超越部分720亿参数大模型。同时，模型架构包含视觉编码器、动态Token合成模块及大语言模型三大核心组件，采用四阶段渐进式训练策略，确保强大理解力。此外，Video-XL-2通过分段式预装填与双粒度KV解码机制优化效率，在单张24GB显卡上支持千帧视频处理，80GB显卡上可达万帧级。其在影视内容分析、异常行为监测等领域应用前景广阔，项目代码与模型已全面开源。

原文链接

跨界思维

06-04 14:20:36

开源模型

视频理解

长视频

分享至

打开微信扫一扫

内容投诉

生成图片

智源研究院宣布开源超长视频理解模型Video-XL-2

今日，《科创板日报》报道，智源研究院联合上海交通大学等机构推出新一代超长视频理解模型Video-XL-2。该模型突破性地提升了视频处理时长，可在单张显卡上高效处理长达万帧的视频输入，大幅拓展了应用场景。目前，模型权重已全面开源，面向社区开发者共享资源。这一技术进展标志着视频理解领域迈入新阶段，为学术研究及产业应用提供强大支持。

原文链接

神经网络领航员

06-03 12:58:08

Video-XL-2

智源研究院

超长视频理解模型

分享至

打开微信扫一扫

内容投诉

生成图片

3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，大海捞针准确率超98%

标题：3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，准确率超98% 正文： 3B模型超越Meta 7B模型，超长视频理解SOTA刷新！上海交通大学、北京智源研究院和特伦托大学联合推出的Video-XL-Pro，实现近万帧视频单卡处理，大海捞针准确率超98%。当前多模态大模型...

原文链接

Oasis

05-04 23:17:35

Video-XL-Pro

重构式token压缩

长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

长视频理解新突破！Mamba混合架构让显存消耗腰斩，处理10万视频token不费力

标题：Mamba混合架构让显存消耗减半，轻松处理10万视频token 长视频理解迎来新突破！滑铁卢大学陈文虎团队联合多家机构推出Mamba-Transformer混合模型Vamba。不同于传统压缩视频token的方式，Vamba通过优化架构设计，提升了处理视频token的效率。实验显示，Vamb...

原文链接