Llama 4发布:拥抱新架构与多模态融合
Meta发布了Llama 4系列,没有再强调参数量的绝对优势,而是推出了三款针对性的模型:Scout、Maverick和Behemoth。Scout(109B参数)适合单卡部署,支持长上下文任务;Maverick(400B参数)性能媲美GPT-4o,推理成本仅为后者十分之一;Behemoth(2T参数)专注于训练数据生成,不对外开放。
架构上,Llama 4全面转向MoE(混合专家),Scout采用16专家,Maverick则扩展至128专家,推理时仅激活两个专家模块。这种设计灵感源自DeepSeek,通过更高效的参数利用提升性能。
多模态能力显著升级,图像处理从外挂编码器转变为原生token集成,使图文一体化建模成为可能。Maverick在DocVQA、ChartQA等任务中超越GPT-4o,且成本更低。Scout虽为轻量级,但仍表现出色。
训练策略上,Behemoth聚焦于生成高质量训练数据,支持Scout和Maverick的迭代优化,而非单纯追求单一模型的极限性能。
Llama 4标志着Meta从单一模型竞争转向体系化布局,Scout负责应用落地,Maverick专注实际交付,Behemoth则奠定基础能力。这不仅是技术进步,更是行业发展方向的信号灯。
原文链接
本文链接:https://kx.umi6.com/article/16754.html
转载请注明文章出处
相关推荐
.png)
换一换
豆包1.5 Pro重磅更新!7倍MoE性能杠杆,“不使用任何其他模型数据”
2025-01-22 23:05:37
上海AI公司开源模型登上全球第二
2025-07-03 07:50:43
别听模型厂商的,“提示”不是功能,是bug
2025-08-10 10:44:56
GPT-5超越人类医生!推理能力比专家高出24%,理解力强29%
2025-08-15 16:18:18
一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!
2025-04-25 18:17:24
中国AI凭什么逆袭美国?
2025-06-26 13:58:23
阿里开源电影级视频生成模型通义万相2.2
2025-07-28 21:20:36
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
2025-04-06 10:54:42
一场对话,我们细扒了下文心大模型背后的技术
2025-05-22 23:09:28
GPT-5泄露!首次统一GPT和o系列,实测demo抢先曝光,下周发布?
2025-08-01 08:52:52
「阶跃星辰」的一次豪赌
2025-05-21 08:55:53
2024年AI“洋模型”大起底
2024-12-27 15:04:14
Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B
2025-04-10 13:47:48
571 文章
273621 浏览
24小时热文
更多

-
2025-10-23 18:14:34
-
2025-10-23 18:13:26
-
2025-10-23 18:12:20