1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Meta近日宣布开源其最新的多模态大模型Llama 3.2,该系列模型共分为四个版本,涵盖从1B、3B的轻量级模型到11B、90B的视觉增强型模型。Llama 3.2 1B、3B模型旨在适应边缘设备和移动应用,支持128k标记的上下文长度,且已针对高通和联发科硬件进行了优化,优化后的Arm处理器兼容性使其广泛应用于各类移动和物联网设备。此系列的11B和90B版本则首次加入了视觉处理能力,不仅能够理解和推理图像,还能完成文档分析、图像字幕、视觉问答等任务。 Llama 3.2 90B版本具备强大的常识、长文本生成、多语言翻译、编码、数学和高级推理能力,同时新增了图像推理功能,能够进行图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答等任务。而11B版本则适用于内容创建、对话式AI、语言理解等领域,尤其在文本摘要、情感分析、代码生成和指令执行方面表现出色,同样增加了图像推理能力,其功能与90B版本相似,但侧重于不同应用场景的需求。 测试结果显示,Llama 3.2模型在图像识别和视觉理解基准测试中与当前领先的人工智能模型具有竞争力,显示了Meta在多模态AI领域的技术实力。此次开源行动旨在推动多模态AI技术的普及和创新,促进AI社区的合作与进步。

原文链接
本文链接:https://kx.umi6.com/article/7095.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里通义千问宣布推出多模态模型 Qwen VLo,实现从感知到生成的跨越
2025-06-28 00:15:30
刚刚,OpenAI 四位华人AI 大牛集体被挖,清北浙大中科大校友,小扎杀疯了
2025-06-29 11:30:41
几百万本书白给AI训练?Meta胜诉AI版权案
2025-06-26 15:25:18
24小时热文
更多
扫一扫体验小程序