Llama 4发布:拥抱新架构与多模态融合
Meta发布了Llama 4系列,没有再强调参数量的绝对优势,而是推出了三款针对性的模型:Scout、Maverick和Behemoth。Scout(109B参数)适合单卡部署,支持长上下文任务;Maverick(400B参数)性能媲美GPT-4o,推理成本仅为后者十分之一;Behemoth(2T参数)专注于训练数据生成,不对外开放。
架构上,Llama 4全面转向MoE(混合专家),Scout采用16专家,Maverick则扩展至128专家,推理时仅激活两个专家模块。这种设计灵感源自DeepSeek,通过更高效的参数利用提升性能。
多模态能力显著升级,图像处理从外挂编码器转变为原生token集成,使图文一体化建模成为可能。Maverick在DocVQA、ChartQA等任务中超越GPT-4o,且成本更低。Scout虽为轻量级,但仍表现出色。
训练策略上,Behemoth聚焦于生成高质量训练数据,支持Scout和Maverick的迭代优化,而非单纯追求单一模型的极限性能。
Llama 4标志着Meta从单一模型竞争转向体系化布局,Scout负责应用落地,Maverick专注实际交付,Behemoth则奠定基础能力。这不仅是技术进步,更是行业发展方向的信号灯。
原文链接
本文链接:https://kx.umi6.com/article/16754.html
转载请注明文章出处
相关推荐
换一换
匆匆发布的Llama4
2025-04-06 16:09:03
“开源王者”Llama4,却让DeepSeek们松了一口气
2025-04-07 08:47:00
这款应用爆火背后,AI下半场正从「聊天」变「办事」
2025-11-27 16:49:01
商汤日日新 SenseNova V6 多模态融合大模型发布
2025-04-10 17:00:13
一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!
2025-04-25 18:17:24
阿里通义千问 2.5-Omni-3B AI 全模态登场:7B 版 90% 性能,显存占用减少 53%
2025-05-01 11:20:52
腾讯发布并开源混元-A13B模型:极端条件仅1张中低端GPU卡即可部署
2025-06-27 17:17:05
视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊
2025-11-28 17:39:28
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超Nano Banana
2025-10-31 10:25:44
GPT-5信息大量泄露,四个版本全曝光,免费用户也能用,还有一个神秘功能
2025-08-07 18:55:45
文生视频模型为何迟迟没有“aha moment”?
2025-04-14 15:40:26
Meta发布最强开源Llama 4,超越DeepSeek V3
2025-04-06 10:58:02
智谱 GLM-4.6V 系列多模态 AI 大模型发布并开源,API 降价 50%
2025-12-08 20:45:30
623 文章
366934 浏览
24小时热文
更多
-
2025-12-08 21:51:18 -
2025-12-08 21:49:12 -
2025-12-08 21:48:42