榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

2025-08-26 14:44:18

量子思考者

发布在

科普

阅读：439

标题：榨干GPU性能，中兴Mariana突破显存壁垒

正文：
大语言模型（LLM）在各行业的应用日益广泛，但推理效率与显存成本之间的矛盾愈发突出。KV Cache作为提升生成速度的核心技术，却因显存占用过高成为制约模型扩展和并发能力的瓶颈。如何高效扩展KV Cache存储空间，已成为AI领域的关键挑战。

业界已有多种探索：Nvidia的Dynamo项目通过多级缓存算法实现数据自动迁移，但延迟开销较高；微软的LMCache兼容性强但分布式支持不足；阿里巴巴的远端存储方案扩展性好，但读写性能难以满足低延迟需求。CXL（Compute Express Link）作为一种新兴高速互联技术，为解决内存瓶颈带来希望，但相关研究仍处于起步阶段。

在此背景下，中兴通讯与华东师范大学联合提出了一种名为Mariana（马里亚纳）的分布式共享KV存储技术。其论文发表于IEEE TPDS期刊，展示了三大创新点：
1. 细粒度并发控制：将锁粒度从节点级细化到条目级，减少竞争并提高吞吐量。
2. 定制化数据布局：分离Key和Value存储，优化SIMD加速查找路径。
3. 自适应缓存策略：利用Count-Min Sketch算法快速识别热点数据，显著降低加载延迟。

实验表明，Mariana在读写吞吐和延迟性能上均优于现有方案，尤其适合KV Cache“读多写少”的场景。其解耦内存架构支持大容量存储、高吞吐、低延迟读取及水平扩展，可显著提升大模型推理性能。

基于vLLM框架的测试显示，在GPU显存仅能容纳50% KV数据的情况下，Mariana扩展的多级存储显著提升了推理效率。更重要的是，Mariana的设计与CXL生态高度契合，未来可通过简单适配充分利用CXL的低延迟优势，助力构建下一代大模型推理基础设施。

随着CXL技术成熟和Mariana等方案的落地，百亿/千亿参数模型有望在普通硬件上高效运行，AI算力红利将真正惠及各行各业。

原文链接

本文链接：https://kx.umi6.com/article/24182.html

转载请注明文章出处

CXL