8月23日,苹果研究团队开源了SlowFast-LLaVA-1.5长视频多模态大语言模型,在1B、3B、7B参数规模下刷新LongVideoBench、MLVU等基准纪录。该模型通过创新双流设计,‘慢流’捕捉高分辨率场景细节,‘快流’追踪运动变化,解决现有模型冗余帧和上下文窗口限制等问题。新版本在视频与图像理解任务中表现出色,涵盖知识问答、数学推理及OCR等领域,并兼容公开数据集训练,已在GitHub和Hugging Face开源。
原文链接
本文链接:https://kx.umi6.com/article/24057.html
转载请注明文章出处
相关推荐
换一换
OpenAI想杀入苹果“腹地”
2025-09-20 18:33:36
提速 128 倍:苹果发布 FS-DFM 模型,AI 长文写作不再等待
2025-10-14 14:18:04
什么情况?马斯克威胁:将“立即”对苹果采取法律行动!
2025-08-12 12:21:38
苹果发布 DiffuCode-7B-cpGRPO 编程 AI 模型:基于 Qwen2.5-7B,可不按顺序生成代码
2025-07-05 09:57:16
AI搜索引擎,苹果决定自研!代号WKA
2025-09-04 09:57:52
马斯克:xAI将对苹果采取法律行动
2025-08-12 10:16:54
苹果的面子,谷歌的里子
2025-09-11 08:51:03
iPhone大卖,给不了苹果安全感
2025-08-03 11:36:33
AI生成快捷指令,苹果AI最有用的一集来了?
2025-06-06 15:33:38
苹果高管:有意在芯片设计中引入AI
2025-06-19 20:53:41
苹果搁置头显升级计划,优先开发可媲美Meta的智能眼镜
2025-10-02 06:02:35
苹果计划为Siri开发基于人工智能的网页搜索工具 以与OpenAI竞争
2025-09-04 04:55:53
苹果炮轰推理模型全是假思考!4个游戏戳破神话,o3/DeepSeek高难度全崩溃
2025-06-08 12:05:30
611 文章
369311 浏览
24小时热文
更多
-
2025-12-08 22:52:38 -
2025-12-08 22:51:57 -
2025-12-08 22:51:33