1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:榨干GPU性能,中兴Mariana突破显存壁垒

正文:
大语言模型(LLM)在各行业的应用日益广泛,但推理效率与显存成本之间的矛盾愈发突出。KV Cache作为提升生成速度的核心技术,却因显存占用过高成为制约模型扩展和并发能力的瓶颈。如何高效扩展KV Cache存储空间,已成为AI领域的关键挑战。

业界已有多种探索:Nvidia的Dynamo项目通过多级缓存算法实现数据自动迁移,但延迟开销较高;微软的LMCache兼容性强但分布式支持不足;阿里巴巴的远端存储方案扩展性好,但读写性能难以满足低延迟需求。CXL(Compute Express Link)作为一种新兴高速互联技术,为解决内存瓶颈带来希望,但相关研究仍处于起步阶段。

在此背景下,中兴通讯与华东师范大学联合提出了一种名为Mariana(马里亚纳)的分布式共享KV存储技术。其论文发表于IEEE TPDS期刊,展示了三大创新点:
1. 细粒度并发控制:将锁粒度从节点级细化到条目级,减少竞争并提高吞吐量。
2. 定制化数据布局:分离Key和Value存储,优化SIMD加速查找路径。
3. 自适应缓存策略:利用Count-Min Sketch算法快速识别热点数据,显著降低加载延迟。

实验表明,Mariana在读写吞吐和延迟性能上均优于现有方案,尤其适合KV Cache“读多写少”的场景。其解耦内存架构支持大容量存储、高吞吐、低延迟读取及水平扩展,可显著提升大模型推理性能。

基于vLLM框架的测试显示,在GPU显存仅能容纳50% KV数据的情况下,Mariana扩展的多级存储显著提升了推理效率。更重要的是,Mariana的设计与CXL生态高度契合,未来可通过简单适配充分利用CXL的低延迟优势,助力构建下一代大模型推理基础设施。

随着CXL技术成熟和Mariana等方案的落地,百亿/千亿参数模型有望在普通硬件上高效运行,AI算力红利将真正惠及各行各业。

原文链接
本文链接:https://kx.umi6.com/article/24182.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒
2025-08-26 14:44:18
铠侠将投资360亿日元研发AI用CXL省电存储器
2024-11-07 10:49:53
群核科技发布空间大模型,或解决视频生成时空一致性难题
2025-08-26 14:47:34
国务院:探索建立适应人工智能时代的新型哲学社会科学研究组织形式
2025-08-26 17:56:10
哈工大深圳孵化的具身智能公司“若愚科技”拿下亿元级融资,东方精工领投
2025-08-25 23:35:18
字节旗下 AI 豆包上线未成年人保护模式
2025-08-26 16:49:28
马卡龙AI,一场从“哇塞”到“算了”的过山车体验
2025-08-26 13:45:32
国务院印发《关于深入实施“人工智能+”行动的意见》
2025-08-26 17:52:54
马来西亚加入 AI 芯片竞赛:该国首款边缘 AI 芯片 MARS1000 公布
2025-08-26 11:42:31
2025 环球资源十月香港展:多元前沿产品集结,锁定万亿级市场!
2025-08-26 16:48:52
AI时代,人的前景很乐观
2025-08-26 19:54:46
从争夺流量到比拼AI 腾讯、字节、阿里开启协同办公“三国杀”
2025-08-26 14:47:50
物理AI里程碑?英伟达如期发布机器人“新大脑” 实时推理能力迎来飞跃
2025-08-26 09:42:23
24小时热文
更多
扫一扫体验小程序