Andrej Karpathy 盛赞！斯坦福团队新作，让Llama-1B 实现毫秒级推理

2025-06-03 12:57:05

小阳哥

发布在

科普

阅读：763

斯坦福 Hazy Research 团队近期发布了一项重大优化成果：他们将开源模型 Llama-3.2-1B 的前向推理整合为一个名为“Megakernel”的单一 CUDA kernel，极大提升了推理速度。这项技术对于实时性强的应用场景尤为重要，例如对话式 AI 和交互式工作流。

团队发现，现有开源推理引擎（如 vLLM、SGLang）在顶级 GPU（如 H100）上，即使在极低延迟的单序列生成任务中，也只能利用不到 50% 的内存带宽。主要原因是每层 Transformer 模块被拆分成几十到上百个 CUDA kernel，这些 kernel 执行的小操作之间存在大量上下文切换和等待，且 kernel 启动与收尾成本无法被充分隐藏。

在 H100 上，Megakernel 将推理延迟压缩至不足 1 毫秒，显存带宽利用率高达 78%，相比 vLLM 提升 2.5 倍，比 SGLang 提升 1.5 倍。在更先进的 B200 平台上，延迟进一步降至 600~680 微秒。

Megakernel 的核心在于将整个前向传播整合为单一 kernel，通过预先分配执行计划，静态编排指令以减少动态分支，最大化吞吐量和并发执行能力。此外，团队对共享内存进行分页管理，确保计算阶段的无缝衔接，并引入计数器系统解决依赖问题，避免全局 barrier 延迟。

传统推理方式效率低下的原因在于模型前向过程被拆分为过多的小 kernel，导致 GPU 需要频繁切换任务，显存访问断断续续，带宽利用率低。Megakernel 的出现彻底改变了这一局面，显著提高了 GPU 的算力利用率。

原文链接

本文链接：https://kx.umi6.com/article/19615.html

转载请注明文章出处

LLM