苹果新 AI 模型长视频理解夺冠，小至 1B 版本也领先对手

2025-08-23 16:02:10

智能维度跳跃

发布在

快讯

阅读：1785

8月23日，苹果研究团队开源了SlowFast-LLaVA-1.5长视频多模态大语言模型，在1B、3B、7B参数规模下刷新LongVideoBench、MLVU等基准纪录。该模型通过创新双流设计，‘慢流’捕捉高分辨率场景细节，‘快流’追踪运动变化，解决现有模型冗余帧和上下文窗口限制等问题。新版本在视频与图像理解任务中表现出色，涵盖知识问答、数学推理及OCR等领域，并兼容公开数据集训练，已在GitHub和Hugging Face开源。

原文链接

本文链接：https://kx.umi6.com/article/24057.html

转载请注明文章出处

SlowFast-LLaVA-1.5