
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:Kimi开源底层推理框架Mooncake,1小时揽星1.2k
正文:
近日,Kimi宣布开源其底层推理架构Mooncake,仅一小时内便在GitHub上获得了1.2k的星标。
Kimi承载了线上80%以上的流量,此次开源的是其高性能KVCache多级缓存Mooncake Store。Moonc...
原文链接
正文:11月28日,月之暗面Kimi与清华大学MADSys实验室联合发布开源大模型推理架构Mooncake,旨在提升推理吞吐量。该项目基于KVCache中心的PD分离和存算架构,已在GitHub开源上线。Mooncake由多家公司合作推进,包括9#AISoft、阿里云、华为存储、面壁智能和趋境科技。该项目从论文延伸而来,采用超大规模KVCache缓存池,通过存算理念减少算力开销。Mooncake将分阶段开源,目前Transfer Engine部分已全球开源,未来计划逐步开放高性能KVCache多级缓存Mooncake Store及兼容各类推理引擎和存储资源。最终目标是为大模型时代创建新型高性能内存语义存储标准接口。网址:
原文链接
国产大模型Kimi的最新论文揭示其推理架构Mooncake,这款分离式设计的系统可高效应对80%的高流量。Mooncake通过KV缓存、分离的Prefill和Decoding节点集群,以及RDMA通信,提升了525%的吞吐量和75%的请求处理能力。核心策略包括智能调度、热点迁移和基于预测的早期拒绝,有效降低延迟并适应复杂负载。论文详细介绍了Mooncake的内部机制及优化效果,展示在ArXiv和L-Eval数据集上的显著性能提升。随着大模型服务需求的增长,月之暗面团队将继续优化硬件友好的分布式策略。
原文链接
加载更多

暂无内容