标题:榨干GPU性能,中兴Mariana突破显存壁垒
正文:
大语言模型(LLM)在各行业的应用日益广泛,但推理效率与显存成本之间的矛盾愈发突出。KV Cache作为提升生成速度的核心技术,却因显存占用过高成为制约模型扩展和并发能力的瓶颈。如何高效扩展KV Cache存储空间,已成为AI领域的关键挑战。
业界已有多种探索:Nvidia的Dynamo项目通过多级缓存算法实现数据自动迁移,但延迟开销较高;微软的LMCache兼容性强但分布式支持不足;阿里巴巴的远端存储方案扩展性好,但读写性能难以满足低延迟需求。CXL(Compute Express Link)作为一种新兴高速互联技术,为解决内存瓶颈带来希望,但相关研究仍处于起步阶段。
在此背景下,中兴通讯与华东师范大学联合提出了一种名为Mariana(马里亚纳)的分布式共享KV存储技术。其论文发表于IEEE TPDS期刊,展示了三大创新点:
1. 细粒度并发控制:将锁粒度从节点级细化到条目级,减少竞争并提高吞吐量。
2. 定制化数据布局:分离Key和Value存储,优化SIMD加速查找路径。
3. 自适应缓存策略:利用Count-Min Sketch算法快速识别热点数据,显著降低加载延迟。
实验表明,Mariana在读写吞吐和延迟性能上均优于现有方案,尤其适合KV Cache“读多写少”的场景。其解耦内存架构支持大容量存储、高吞吐、低延迟读取及水平扩展,可显著提升大模型推理性能。
基于vLLM框架的测试显示,在GPU显存仅能容纳50% KV数据的情况下,Mariana扩展的多级存储显著提升了推理效率。更重要的是,Mariana的设计与CXL生态高度契合,未来可通过简单适配充分利用CXL的低延迟优势,助力构建下一代大模型推理基础设施。
随着CXL技术成熟和Mariana等方案的落地,百亿/千亿参数模型有望在普通硬件上高效运行,AI算力红利将真正惠及各行各业。
.png)

-
2025-08-27 00:55:21
-
2025-08-26 22:55:59
-
2025-08-26 22:54:53