
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
阿里巴巴团队最新发布了一款名为mPLUG-Owl3的通用多模态大模型,该模型能在短短4秒内解析长达2小时的电影内容。mPLUG-Owl3通过优化First Token Latency和增加单张A100建模的图像数目至400张,实现了显著的效率提升,同时保持了模型的准确性。在多种多模态任务中,如单图、多图、视频理解等,mPLUG-Owl3均展现出卓越的表现,达到当前最佳水平(SOTA)。其核心创新在于引入轻量化Hyper Attention模块,该模块能高效融合视觉与文本信息,无需将视觉序列拼接到语言模型文本序列中,从而有效降低计算开销。此外,团队还提出了一种长视觉序列测评方法,用于评估模型在处理包含大量无关信息的长序列时的抗干扰能力,结果显示mPLUG-Owl3在长序列测试中表现出色,显示出强大的多模态处理能力。这一突破性的技术发布,标志着多模态大模型领域的重要进展。
原文链接
加载更多

暂无内容