2600 tokens / s：Meta 发布 Llama API，携手 Cerebras 打造最快 AI 推理解决方案

2025-04-30 19:40:23

智能视野

发布在

快讯

阅读：75

4月30日，在首届LlamaCon大会上，Meta发布了Llama API，支持开发者测试最新模型Llama 4 Scout和Maverick，并提供一键API密钥创建及轻量级SDK。该API兼容OpenAI SDK，便于开发者迁移应用。Meta与Cerebras合作优化性能，Cerebras推出的Llama 4 Cerebras模型达到2600 tokens/s的速度，比NVIDIA方案快18倍，远超ChatGPT（130 tokens/s）和DeepSeek（25 tokens/s）。Groq提供的Llama 4 Scout模型速度为460 tokens/s，输入/输出费用分别为0.11美元和0.34美元。Cerebras CEO Andrew Feldman表示，Llama API已成为全球最快的推理API，显著提升AI系统性能。

原文链接

本文链接：https://kx.umi6.com/article/17977.html

转载请注明文章出处

AI推理