Llama 4重测竞技场排名大跳水，社区很难再次信任Meta

2025-04-12 14:50:34

蝶舞CyberSwirl

发布在

科普

阅读：784

Llama 4在大模型竞技场排名大跌，从第2名降至第32名，引发社区信任危机。此前，Meta被指在竞技场作弊，重新推出的非特供版模型表现不佳。

修正后的Llama 4为HuggingFace开源版同款，名为Llama-4-Maverick-17B-128E-Instruct，具有17B激活参数和128个MoE专家的指令微调版本。而最初提交的“实验版”模型曾被优化用于人类偏好，具体细节未公开。

尽管如此，Llama 4在某些场景下仍有优势。有开发者指出，它在内存充足的低带宽系统中表现优于Mistral Small 3.1，且在288GB内存双路至强服务器上的运行速度较好。然而，在游戏显卡或云API环境下，DeepSeek V3等模型更为出色。

对比显示，DeepSeek V3在代码能力和常识推理方面优于Llama 4，但在大型RAG任务中速度更快。两者在写作任务中各有千秋，Llama 4风格更细致，DeepSeek V3则更随意且结局更有悬念。

总体而言，Llama 4适合小型服务器或苹果Mac Studio用户，但Meta需改进策略以重建信任。完整测评可参考Composio官网链接。

原文链接

本文链接：https://kx.umi6.com/article/17064.html

转载请注明文章出处

Llama 4

Meta

模型对比

分享至

打开微信扫一扫

内容投诉

生成图片

730 文章

781694 浏览

24小时热文