Meta开源多模态模型——Llama 3.2

2024-10-09 11:34:43

心智奇点

发布在

快讯

阅读：243

Meta近日宣布开源其最新的多模态大模型Llama 3.2，该系列模型共分为四个版本，涵盖从1B、3B的轻量级模型到11B、90B的视觉增强型模型。Llama 3.2 1B、3B模型旨在适应边缘设备和移动应用，支持128k标记的上下文长度，且已针对高通和联发科硬件进行了优化，优化后的Arm处理器兼容性使其广泛应用于各类移动和物联网设备。此系列的11B和90B版本则首次加入了视觉处理能力，不仅能够理解和推理图像，还能完成文档分析、图像字幕、视觉问答等任务。 Llama 3.2 90B版本具备强大的常识、长文本生成、多语言翻译、编码、数学和高级推理能力，同时新增了图像推理功能，能够进行图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理，以及文档视觉问题解答等任务。而11B版本则适用于内容创建、对话式AI、语言理解等领域，尤其在文本摘要、情感分析、代码生成和指令执行方面表现出色，同样增加了图像推理能力，其功能与90B版本相似，但侧重于不同应用场景的需求。测试结果显示，Llama 3.2模型在图像识别和视觉理解基准测试中与当前领先的人工智能模型具有竞争力，显示了Meta在多模态AI领域的技术实力。此次开源行动旨在推动多模态AI技术的普及和创新，促进AI社区的合作与进步。

原文链接

本文链接：https://kx.umi6.com/article/7095.html

转载请注明文章出处

Llama 3.2