视频理解 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

视频理解霸榜！快手Keye-VL旗舰模型重磅开源，多模态视频感知领头羊

视频理解霸榜！快手Keye-VL旗舰模型重磅开源，多模态视频感知领头羊快手新一代旗舰多模态大语言模型Keye-VL-671B-A37B正式发布！在保持基础模型强大通用能力的同时，该模型在视觉感知、跨模态对齐和复杂推理链路上进行了系统升级，实现了更精准的“看”、“想”、“答”。图像语义理解更可靠 ...

原文链接

代码编织者Nexus

11-28 17:39:28

分享至

打开微信扫一扫

内容投诉

生成图片

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

标题：快手开源多模态推理模型Keye-VL 1.5：视频理解新标杆快手开源了新一代多模态推理模型Keye-VL 1.5，具备128k超长上下文窗口、0.1秒级视频定位能力及跨模态推理功能。相比此前版本，新模型在时序定位和跨模态推理上显著提升，并创新性提出Slow-Fast双路编码机制，在性能与...

原文链接

阿达旻

09-05 22:26:24

分享至

打开微信扫一扫

内容投诉

生成图片

大模型无法真正理解视频，GPT-4o正确率仅36%，南洋理工大团队提出新基准

标题：大模型难懂视频，GPT-4o正确率仅36%，南洋理工推出新基准正文：视频大型语言模型（Video LLMs）虽能描述视频内容并回答问题，但其是否真正“理解”视频仍是疑问。为解答这一问题，南洋理工大学S-Lab团队提出全新基准测试——Video Thinking Test（Video-T...

原文链接

星际Code流浪者

08-01 19:06:23

分享至

打开微信扫一扫

内容投诉

生成图片

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2 国产开源模型再添亮点，智源研究院联合上海交通大学等机构发布新一代超长视频理解模型Video-XL-2。该模型可在单张显卡上高效处理长达万帧的视频输入，编码2048帧视频仅需12秒。相较于上一代Video-XL，Video-XL-2在效果、长度、速度三方面全面升级。在MLVU、Video-MME、LVBench等主流评测中表现优异，接近甚至超越部分720亿参数大模型。同时，模型架构包含视觉编码器、动态Token合成模块及大语言模型三大核心组件，采用四阶段渐进式训练策略，确保强大理解力。此外，Video-XL-2通过分段式预装填与双粒度KV解码机制优化效率，在单张24GB显卡上支持千帧视频处理，80GB显卡上可达万帧级。其在影视内容分析、异常行为监测等领域应用前景广阔，项目代码与模型已全面开源。

原文链接

跨界思维

06-04 14:20:36

分享至

打开微信扫一扫

内容投诉

生成图片

达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩

达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA 7B大小的视频理解模型新SOTA，由达摩院发布的Video LLaMA 3，以图像为中心构建新一代多模态视频-语言模型。在通用视频理解、时间推理和长视频理解三个核心维度中，VideoLLaMA 3表现优异，超越多数基线模型。适用于...

原文链接

AI幻想空间站

02-14 12:34:39

分享至

打开微信扫一扫

内容投诉

生成图片

Meta 推出 Apollo 开源模型，让 AI “看懂”视频

Meta与斯坦福大学合作，于12月18日推出Apollo开源AI模型系列，旨在显著提升机器对视频的理解能力。当前，尽管AI在图像和文本处理上有显著进展，但视频处理仍是难题。Apollo模型通过两个组件解决此问题：一个处理单帧，另一个追踪时间变化中的对象和场景。研究显示，采用分阶段训练方法并优化数据集配比，能显著提升模型性能。Apollo模型在不同规模上表现优异，小至Apollo-3B，大至Apollo-7B，均超越同类产品。Meta已开源Apollo的代码和模型权重，并在Hugging Face平台上提供公开演示。

原文链接

未来笔触

12-18 14:33:56

分享至

打开微信扫一扫

内容投诉

生成图片

突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

标题：突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力当前评测基准存在几大缺陷：多注重短视频，难以考察长时序理解能力；评估任务较简单，未涉及细粒度能力；问题与画面时序性关联弱；对开放性问题的评估不够精准。针对这些问题，MMBench-Video应运...

原文链接

AI幻想空间站

10-30 17:14:43

分享至

打开微信扫一扫

内容投诉

生成图片

天问大模型再升级，不仅能“看”懂视频，更能快速实现小目标识别、场景关系理解

标题：天问大模型再升级，不仅能“看”懂视频，更能快速实现小目标识别、场景关系理解正文：时隔四个月，天问大模型迎来新一轮升级。在“中国国际社会公共安全产品博览会”上，依图科技展示了最新的依图天问大模型4.5。此次展出的依图天问4.5在视频内容理解方面表现突出，不仅能够“看”懂视频，还能快速识别小...

原文链接