刚刚，Kimi开源底层推理框架，1小时GitHub揽星1.2k

2024-11-28 16:30:28

智慧轨迹

发布在

科普

阅读：356

标题：Kimi开源底层推理框架Mooncake，1小时揽星1.2k

正文：近日，Kimi宣布开源其底层推理架构Mooncake，仅一小时内便在GitHub上获得了1.2k的星标。

Kimi承载了线上80%以上的流量，此次开源的是其高性能KVCache多级缓存Mooncake Store。Mooncake采用分阶段方式开源，目前传输引擎Transfer Engine已在全球开源。

Mooncake的目标是为大模型时代打造高性能内存语义存储标准接口，并提供参考实现方案。Kimi工程副总裁许欣然表示，Mooncake由Kimi与清华大学MADSys实验室合作开发，实现了推理资源的极致优化，提升了用户体验，降低了成本，还有效解决了长文本和高并发需求。

Mooncake于今年6月启动，当时已受到广泛关注。Mooncake的论文《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》详细介绍了其系统架构，基于KVCache中心的解耦架构，提高了推理吞吐量。

Mooncake的核心在于以KVCache为中心的调度程序，平衡整体有效吞吐量和延迟要求。在流量高峰期，Mooncake采用早期拒绝策略和预测未来负载的方法处理超载问题。通过分析建模，Mooncake能估计未来的请求处理需求，并据此调整调度策略。实验结果显示，Mooncake在某些场景中的吞吐量提升了525%，且在实际工作负载下处理了75%以上的请求。

目前，Mooncake已承载了Kimi线上80%以上的流量。Mooncake开源项目吸引了AISoft、阿里云、华为存储、面壁智能、趋境科技等多家机构参与，旨在通过产学研力量共同推进模型推理系统的创新，让更多人受益于大模型技术。

原文链接

本文链接：https://kx.umi6.com/article/9409.html

转载请注明文章出处

Kimi