综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年4月,月之暗面与清华大学联合发布新论文,提出Prefill-as-a-Service(PrFaaS)架构,解决大模型推理中的跨机房调度难题。核心突破在于实现KV Cache跨数据中心传输,将Prefill和Decode解耦至异构集群,显著优化长上下文场景性能。实验显示,相比传统同构部署,吞吐量提升54%,P90延迟降低64%,且仅占用13Gbps带宽,普通商用以太网即可承载。研究团队由清华大学郑纬民院士、武永卫教授及月之暗面工程团队组成,一作为清华博士生秦若愚。该成果基于混合注意力模型架构,为分布式推理提供高效可行的工程方案。
原文链接
加载更多
暂无内容