标题:把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍
CPU+GPU协作下,模型KV缓存压力得到缓解。CMU、华盛顿大学及Meta AI的研究团队提出MagicPIG,通过在CPU上应用LSH采样技术,有效解决了GPU内存容量限制的问题。与仅使用GPU的注意力机制相比,MagicPIG提升了1.76~4.99倍的解码吞吐量,并在检索和推理任务中实现更高准确率。
研究主要贡献包括: 1. MagicPIG基于采样/估计而非搜索,提升推理质量。 2. 将解码阶段注意力模块计算和哈希表卸载到CPU上,提升吞吐量,降低实际模型部署成本。
KV缓存限制了GPU高效利用。在长上下文大模型推理中,KV缓存成为瓶颈。显存占用随批量大小和序列长度线性增长,限制了GPU的批量处理能力。NVIDIA A100-40GB GPU在处理Llama-3.1-8B模型时,仅支持单个请求,近半解码时间用于访问KV缓存。
TopK Attention存在显著质量问题。动态稀疏注意力和基于TopK的近似方法虽广泛应用,但常伴随质量下降。现有的KV缓存压缩技术如Quest、H2O和Loki通过筛选注意力得分最高子集提高效率,但仍存在偏差和缺乏理论保障。
MagicPIG提出基于采样的注意力估计,显著提高估计准确性。通过局部敏感哈希(LSH)生成采样概率,MagicPIG大幅降低内存访问量,提升CPU内存带宽,实现高效注意力计算。系统设计将注意力计算和哈希表放置在CPU上,优化大语言模型(LLM)解码过程。
实验结果显示,MagicPIG在检索和推理任务中比Quest实现更高准确率。在L20 + Intel 8563C上,MagicPIG提升了1.76~4.99倍的解码吞吐量。未来研究将支持更高效的LSH算法,降低LLM部署成本,探索异构计算可能性。
.png)

-
2025-07-22 09:30:52
-
2025-07-22 09:29:48
-
2025-07-22 09:28:44