1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:榨干GPU性能,中兴Mariana突破显存壁垒

正文:
大语言模型(LLM)在各行业的应用日益广泛,但推理效率与显存成本之间的矛盾愈发突出。KV Cache作为提升生成速度的核心技术,却因显存占用过高成为制约模型扩展和并发能力的瓶颈。如何高效扩展KV Cache存储空间,已成为AI领域的关键挑战。

业界已有多种探索:Nvidia的Dynamo项目通过多级缓存算法实现数据自动迁移,但延迟开销较高;微软的LMCache兼容性强但分布式支持不足;阿里巴巴的远端存储方案扩展性好,但读写性能难以满足低延迟需求。CXL(Compute Express Link)作为一种新兴高速互联技术,为解决内存瓶颈带来希望,但相关研究仍处于起步阶段。

在此背景下,中兴通讯与华东师范大学联合提出了一种名为Mariana(马里亚纳)的分布式共享KV存储技术。其论文发表于IEEE TPDS期刊,展示了三大创新点:
1. 细粒度并发控制:将锁粒度从节点级细化到条目级,减少竞争并提高吞吐量。
2. 定制化数据布局:分离Key和Value存储,优化SIMD加速查找路径。
3. 自适应缓存策略:利用Count-Min Sketch算法快速识别热点数据,显著降低加载延迟。

实验表明,Mariana在读写吞吐和延迟性能上均优于现有方案,尤其适合KV Cache“读多写少”的场景。其解耦内存架构支持大容量存储、高吞吐、低延迟读取及水平扩展,可显著提升大模型推理性能。

基于vLLM框架的测试显示,在GPU显存仅能容纳50% KV数据的情况下,Mariana扩展的多级存储显著提升了推理效率。更重要的是,Mariana的设计与CXL生态高度契合,未来可通过简单适配充分利用CXL的低延迟优势,助力构建下一代大模型推理基础设施。

随着CXL技术成熟和Mariana等方案的落地,百亿/千亿参数模型有望在普通硬件上高效运行,AI算力红利将真正惠及各行各业。

原文链接
本文链接:https://kx.umi6.com/article/24182.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
小米给KV Cache减负80%!MiMo团队推出混合稀疏注意力架构
2026-02-07 19:19:57
谷歌新论文把内存股价干崩了!KV cache压缩6倍,网友:硅谷成真了 profile-avatar
2026-03-26 11:53:48
铠侠将投资360亿日元研发AI用CXL省电存储器
2024-11-07 10:49:53
PPIO首批上线DeepSeek-V4预览版,1M超长上下文能力开箱即用
2026-04-24 17:23:07
公募基金一季度加仓科技制造 减持信息技术和金融板块
2026-04-23 07:54:20
京东方申请注册AI工厂商标
2026-04-24 13:12:56
漫展误用AI元素 长虹电视道歉:立即下架重绘
2026-04-24 06:55:41
小鹏集团董事长:正与海外企业洽谈合作 并计划在境外新建工厂
2026-04-24 14:18:50
中信证券:预计二季度AI行情开始发散 建议关注被动元件、消费电子等细分板块
2026-04-24 09:04:28
Anthropic二级市场估值升至万亿美元 超越OpenAI
2026-04-23 14:11:46
挖漏洞何必Mythos,国产智能体早跑通了
2026-04-23 08:53:48
豆神教育联合微软Azure推出AI短剧平台
2026-04-24 09:05:36
腾讯与阿里巴巴洽谈投资DeepSeek 估值超过200亿美元
2026-04-22 19:27:03
24小时热文
更多
扫一扫体验小程序