1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

CPU+GPU协作下,模型KV缓存压力得到缓解。CMU、华盛顿大学及Meta AI的研究团队提出MagicPIG,通过在CPU上应用LSH采样技术,有效解决了GPU内存容量限制的问题。与仅使用GPU的注意力机制相比,MagicPIG提升了1.76~4.99倍的解码吞吐量,并在检索和推理任务中实现更高准确率。

研究主要贡献包括: 1. MagicPIG基于采样/估计而非搜索,提升推理质量。 2. 将解码阶段注意力模块计算和哈希表卸载到CPU上,提升吞吐量,降低实际模型部署成本。

KV缓存限制了GPU高效利用。在长上下文大模型推理中,KV缓存成为瓶颈。显存占用随批量大小和序列长度线性增长,限制了GPU的批量处理能力。NVIDIA A100-40GB GPU在处理Llama-3.1-8B模型时,仅支持单个请求,近半解码时间用于访问KV缓存。

TopK Attention存在显著质量问题。动态稀疏注意力和基于TopK的近似方法虽广泛应用,但常伴随质量下降。现有的KV缓存压缩技术如Quest、H2O和Loki通过筛选注意力得分最高子集提高效率,但仍存在偏差和缺乏理论保障。

MagicPIG提出基于采样的注意力估计,显著提高估计准确性。通过局部敏感哈希(LSH)生成采样概率,MagicPIG大幅降低内存访问量,提升CPU内存带宽,实现高效注意力计算。系统设计将注意力计算和哈希表放置在CPU上,优化大语言模型(LLM)解码过程。

实验结果显示,MagicPIG在检索和推理任务中比Quest实现更高准确率。在L20 + Intel 8563C上,MagicPIG提升了1.76~4.99倍的解码吞吐量。未来研究将支持更高效的LSH算法,降低LLM部署成本,探索异构计算可能性。

原文链接
本文链接:https://kx.umi6.com/article/10852.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
英伟达黄仁勋解读“CEO 数学”:花小钱,办大事
2024-06-03 11:55:25
中国首个网络大模型,pick了CPU
2024-09-15 12:38:28
双路96核心!俄罗斯AI服务用上自研CPU:偷偷配八块NVIDIA GPU
2024-12-27 12:01:46
24小时热文
更多
扫一扫体验小程序