
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月23日,苹果研究团队开源了SlowFast-LLaVA-1.5长视频多模态大语言模型,在1B、3B、7B参数规模下刷新LongVideoBench、MLVU等基准纪录。该模型通过创新双流设计,‘慢流’捕捉高分辨率场景细节,‘快流’追踪运动变化,解决现有模型冗余帧和上下文窗口限制等问题。新版本在视频与图像理解任务中表现出色,涵盖知识问答、数学推理及OCR等领域,并兼容公开数据集训练,已在GitHub和Hugging Face开源。
原文链接
加载更多

暂无内容