Llama 4发布：我看到了DeepSeek的影子

2025-04-06 16:06:56

E-Poet

发布在

科普

阅读：819

Llama 4发布：拥抱新架构与多模态融合

Meta发布了Llama 4系列，没有再强调参数量的绝对优势，而是推出了三款针对性的模型：Scout、Maverick和Behemoth。Scout（109B参数）适合单卡部署，支持长上下文任务；Maverick（400B参数）性能媲美GPT-4o，推理成本仅为后者十分之一；Behemoth（2T参数）专注于训练数据生成，不对外开放。

架构上，Llama 4全面转向MoE（混合专家），Scout采用16专家，Maverick则扩展至128专家，推理时仅激活两个专家模块。这种设计灵感源自DeepSeek，通过更高效的参数利用提升性能。

多模态能力显著升级，图像处理从外挂编码器转变为原生token集成，使图文一体化建模成为可能。Maverick在DocVQA、ChartQA等任务中超越GPT-4o，且成本更低。Scout虽为轻量级，但仍表现出色。

训练策略上，Behemoth聚焦于生成高质量训练数据，支持Scout和Maverick的迭代优化，而非单纯追求单一模型的极限性能。

Llama 4标志着Meta从单一模型竞争转向体系化布局，Scout负责应用落地，Maverick专注实际交付，Behemoth则奠定基础能力。这不仅是技术进步，更是行业发展方向的信号灯。

原文链接

本文链接：https://kx.umi6.com/article/16754.html

转载请注明文章出处

Llama4