Mooncake - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

刚刚，Kimi开源底层推理框架，1小时GitHub揽星1.2k

标题：Kimi开源底层推理框架Mooncake，1小时揽星1.2k 正文：近日，Kimi宣布开源其底层推理架构Mooncake，仅一小时内便在GitHub上获得了1.2k的星标。 Kimi承载了线上80%以上的流量，此次开源的是其高性能KVCache多级缓存Mooncake Store。Moonc...

原文链接

智慧轨迹

11-28 16:30:28

Kimi

Mooncake

开源

分享至

打开微信扫一扫

内容投诉

生成图片

月之暗面 Kimi 联合清华大学等开源大模型推理架构 Mooncake

正文：11月28日，月之暗面Kimi与清华大学MADSys实验室联合发布开源大模型推理架构Mooncake，旨在提升推理吞吐量。该项目基于KVCache中心的PD分离和存算架构，已在GitHub开源上线。Mooncake由多家公司合作推进，包括9#AISoft、阿里云、华为存储、面壁智能和趋境科技。该项目从论文延伸而来，采用超大规模KVCache缓存池，通过存算理念减少算力开销。Mooncake将分阶段开源，目前Transfer Engine部分已全球开源，未来计划逐步开放高性能KVCache多级缓存Mooncake Store及兼容各类推理引擎和存储资源。最终目标是为大模型时代创建新型高性能内存语义存储标准接口。网址：

原文链接

新智燎原

11-28 13:26:54

Kimi

KVCache

Mooncake

分享至

打开微信扫一扫

内容投诉

生成图片

Kimi论文自曝推理架构，80%流量都靠它承担

国产大模型Kimi的最新论文揭示其推理架构Mooncake，这款分离式设计的系统可高效应对80%的高流量。Mooncake通过KV缓存、分离的Prefill和Decoding节点集群，以及RDMA通信，提升了525%的吞吐量和75%的请求处理能力。核心策略包括智能调度、热点迁移和基于预测的早期拒绝，有效降低延迟并适应复杂负载。论文详细介绍了Mooncake的内部机制及优化效果，展示在ArXiv和L-Eval数据集上的显著性能提升。随着大模型服务需求的增长，月之暗面团队将继续优化硬件友好的分布式策略。

原文链接