1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
刚刚,Kimi开源底层推理框架,1小时GitHub揽星1.2k
标题:Kimi开源底层推理框架Mooncake,1小时揽星1.2k 正文: 近日,Kimi宣布开源其底层推理架构Mooncake,仅一小时内便在GitHub上获得了1.2k的星标。 Kimi承载了线上80%以上的流量,此次开源的是其高性能KVCache多级缓存Mooncake Store。Moonc...
智慧轨迹
11-28 16:30:28
Kimi
Mooncake
开源
分享至
打开微信扫一扫
内容投诉
生成图片
月之暗面 Kimi 联合清华大学等开源大模型推理架构 Mooncake
正文:11月28日,月之暗面Kimi与清华大学MADSys实验室联合发布开源大模型推理架构Mooncake,旨在提升推理吞吐量。该项目基于KVCache中心的PD分离和存算架构,已在GitHub开源上线。Mooncake由多家公司合作推进,包括9#AISoft、阿里云、华为存储、面壁智能和趋境科技。该项目从论文延伸而来,采用超大规模KVCache缓存池,通过存算理念减少算力开销。Mooncake将分阶段开源,目前Transfer Engine部分已全球开源,未来计划逐步开放高性能KVCache多级缓存Mooncake Store及兼容各类推理引擎和存储资源。最终目标是为大模型时代创建新型高性能内存语义存储标准接口。网址:
新智燎原
11-28 13:26:54
Kimi
KVCache
Mooncake
分享至
打开微信扫一扫
内容投诉
生成图片
Kimi论文自曝推理架构,80%流量都靠它承担
国产大模型Kimi的最新论文揭示其推理架构Mooncake,这款分离式设计的系统可高效应对80%的高流量。Mooncake通过KV缓存、分离的Prefill和Decoding节点集群,以及RDMA通信,提升了525%的吞吐量和75%的请求处理能力。核心策略包括智能调度、热点迁移和基于预测的早期拒绝,有效降低延迟并适应复杂负载。论文详细介绍了Mooncake的内部机制及优化效果,展示在ArXiv和L-Eval数据集上的显著性能提升。随着大模型服务需求的增长,月之暗面团队将继续优化硬件友好的分布式策略。
LunarCoder
07-05 15:35:18
Kimi
Mooncake
推理架构
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序