1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Llama 4发布:拥抱新架构与多模态融合

Meta发布了Llama 4系列,没有再强调参数量的绝对优势,而是推出了三款针对性的模型:Scout、Maverick和Behemoth。Scout(109B参数)适合单卡部署,支持长上下文任务;Maverick(400B参数)性能媲美GPT-4o,推理成本仅为后者十分之一;Behemoth(2T参数)专注于训练数据生成,不对外开放。

架构上,Llama 4全面转向MoE(混合专家),Scout采用16专家,Maverick则扩展至128专家,推理时仅激活两个专家模块。这种设计灵感源自DeepSeek,通过更高效的参数利用提升性能。

多模态能力显著升级,图像处理从外挂编码器转变为原生token集成,使图文一体化建模成为可能。Maverick在DocVQA、ChartQA等任务中超越GPT-4o,且成本更低。Scout虽为轻量级,但仍表现出色。

训练策略上,Behemoth聚焦于生成高质量训练数据,支持Scout和Maverick的迭代优化,而非单纯追求单一模型的极限性能。

Llama 4标志着Meta从单一模型竞争转向体系化布局,Scout负责应用落地,Maverick专注实际交付,Behemoth则奠定基础能力。这不仅是技术进步,更是行业发展方向的信号灯。

原文链接
本文链接:https://kx.umi6.com/article/16754.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
字节 Seed 开源统一多模态理解和生成模型 BAGEL
2025-06-03 19:01:17
Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开
2025-04-08 14:54:51
消息称百度今年下半年将发布新一代 AI 大模型文心 5.0,提升多模态能力
2025-02-12 13:31:41
Meta发布最强开源Llama 4,超越DeepSeek V3
2025-04-06 10:58:02
一场对话,我们细扒了下文心大模型背后的技术
2025-05-22 23:09:28
中信证券:AI产业端Agent和多模态两大主线有望持续引领
2025-08-01 09:26:15
匆匆发布的Llama4
2025-04-06 16:09:03
业界首个:腾讯混元-A13B 模型发布并开源,极端条件 1 张中低端 GPU 卡即可部署
2025-06-27 17:10:33
阿里通义千问 2.5-Omni-3B AI 全模态登场:7B 版 90% 性能,显存占用减少 53%
2025-05-01 11:20:52
GPT-5信息大量泄露,四个版本全曝光,免费用户也能用,还有一个神秘功能
2025-08-07 18:55:45
消息称小鹏机器人新成立“智能拟态部”,主攻机器人多模态
2025-07-25 17:29:22
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
2025-03-20 16:36:06
Llama 4发布:我看到了DeepSeek的影子
2025-04-06 16:06:56
24小时热文
更多
扫一扫体验小程序