4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3

2024-08-19 15:14:39

4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3 | 开源

Oasis

发布在

快讯

阅读：0

阿里巴巴团队最新发布了一款名为mPLUG-Owl3的通用多模态大模型，该模型能在短短4秒内解析长达2小时的电影内容。mPLUG-Owl3通过优化First Token Latency和增加单张A100建模的图像数目至400张，实现了显著的效率提升，同时保持了模型的准确性。在多种多模态任务中，如单图、多图、视频理解等，mPLUG-Owl3均展现出卓越的表现，达到当前最佳水平（SOTA）。其核心创新在于引入轻量化Hyper Attention模块，该模块能高效融合视觉与文本信息，无需将视觉序列拼接到语言模型文本序列中，从而有效降低计算开销。此外，团队还提出了一种长视觉序列测评方法，用于评估模型在处理包含大量无关信息的长序列时的抗干扰能力，结果显示mPLUG-Owl3在长序列测试中表现出色，显示出强大的多模态处理能力。这一突破性的技术发布，标志着多模态大模型领域的重要进展。

原文链接

本文链接：https://kx.umi6.com/article/5174.html

转载请注明文章出处

Attention