8月23日,苹果研究团队开源了SlowFast-LLaVA-1.5长视频多模态大语言模型,在1B、3B、7B参数规模下刷新LongVideoBench、MLVU等基准纪录。该模型通过创新双流设计,‘慢流’捕捉高分辨率场景细节,‘快流’追踪运动变化,解决现有模型冗余帧和上下文窗口限制等问题。新版本在视频与图像理解任务中表现出色,涵盖知识问答、数学推理及OCR等领域,并兼容公开数据集训练,已在GitHub和Hugging Face开源。
原文链接
本文链接:https://kx.umi6.com/article/24057.html
转载请注明文章出处
相关推荐
换一换
为助Siri全面升级AI服务,苹果据称将与谷歌“联手”!
2025-11-06 08:50:14
苹果商讨由谷歌托管新版Siri
2026-03-03 07:42:25
郭明錤:苹果iPhone 18定价策略是“尽可能不涨价”
2026-01-28 09:05:52
苹果搁置头显升级计划,优先开发可媲美Meta的智能眼镜
2025-10-02 06:02:35
Meta到处“挖墙脚”,苹果痛失AI王牌
2025-07-08 23:55:29
苹果首款AI穿戴设备最早可能在2027年发布
2026-01-22 18:06:16
苹果AI掉队?现在唱衰或许还为时过早
2025-07-03 10:09:13
炒安卓冷饭,AI跳票,苹果一夜跌去500亿美元
2025-09-10 16:39:54
郭明錤:苹果AI硬件需求在2027年开始会有较显著增长
2026-01-14 08:21:08
什么情况?马斯克威胁:将“立即”对苹果采取法律行动!
2025-08-12 12:21:38
苹果组建新团队:专攻搜索
2025-08-04 15:59:58
提升 Siri AI 智能的“磨刀石”,消息称苹果已开发内部版类 ChatGPT 应用
2025-09-27 07:37:28
苹果自研转外包:谷歌Gemini模型被爆将为Siri提供支持
2025-11-03 15:31:14
732 文章
618726 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38