标题:Kimi开源底层推理框架Mooncake,1小时揽星1.2k
正文: 近日,Kimi宣布开源其底层推理架构Mooncake,仅一小时内便在GitHub上获得了1.2k的星标。
Kimi承载了线上80%以上的流量,此次开源的是其高性能KVCache多级缓存Mooncake Store。Mooncake采用分阶段方式开源,目前传输引擎Transfer Engine已在全球开源。
Mooncake的目标是为大模型时代打造高性能内存语义存储标准接口,并提供参考实现方案。Kimi工程副总裁许欣然表示,Mooncake由Kimi与清华大学MADSys实验室合作开发,实现了推理资源的极致优化,提升了用户体验,降低了成本,还有效解决了长文本和高并发需求。
Mooncake于今年6月启动,当时已受到广泛关注。Mooncake的论文《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》详细介绍了其系统架构,基于KVCache中心的解耦架构,提高了推理吞吐量。
Mooncake的核心在于以KVCache为中心的调度程序,平衡整体有效吞吐量和延迟要求。在流量高峰期,Mooncake采用早期拒绝策略和预测未来负载的方法处理超载问题。通过分析建模,Mooncake能估计未来的请求处理需求,并据此调整调度策略。实验结果显示,Mooncake在某些场景中的吞吐量提升了525%,且在实际工作负载下处理了75%以上的请求。
目前,Mooncake已承载了Kimi线上80%以上的流量。Mooncake开源项目吸引了AISoft、阿里云、华为存储、面壁智能、趋境科技等多家机构参与,旨在通过产学研力量共同推进模型推理系统的创新,让更多人受益于大模型技术。
.png)

-
2025-07-20 17:06:49
-
2025-07-20 16:05:44
-
2025-07-20 16:05:36