综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年4月,月之暗面与清华大学联合发布新论文,提出Prefill-as-a-Service(PrFaaS)架构,解决大模型推理中的跨机房调度难题。核心突破在于实现KV Cache跨数据中心传输,将Prefill和Decode解耦至异构集群,显著优化长上下文场景性能。实验显示,相比传统同构部署,吞吐量提升54%,P90延迟降低64%,且仅占用13Gbps带宽,普通商用以太网即可承载。研究团队由清华大学郑纬民院士、武永卫教授及月之暗面工程团队组成,一作为清华博士生秦若愚。该成果基于混合注意力模型架构,为分布式推理提供高效可行的工程方案。
原文链接
4月13日,知名分析师郭明錤发文指出,当前内存瓶颈问题正通过多方努力逐步缓解。英伟达借助Grok 3 LPX实现低延迟输出,谷歌利用TurboQuant提升基础设施利用率,Anthropic支持长时间运行的有状态代理架构。郭明錤强调,这些方案从不同层面应对内存密集型挑战,彼此互补且不可替代,并不存在‘压缩KV Cache即可消除内存需求’的简单逻辑。内存问题涉及硬件与软件的系统级优化,需在多层面持续改进。
原文链接
2026年3月,谷歌研究院发布论文介绍TurboQuant压缩算法,引发市场震动。该算法可将AI推理中关键的KV cache内存占用压缩至少6倍,且精度零损失,直接冲击存储芯片行业。受此影响,美光和西部数据股价大跌。TurboQuant结合PolarQuant与QJL技术,实现3-bit量化,无需额外存储开销,同时提升计算速度达8倍。测试显示其在问答、代码生成等任务中表现优异,性能全面领先。专家评价称这是‘谷歌的DeepSeek时刻’,表明更少资源也能实现高质量AI推理。不过,该技术目前仅为实验室成果,仅适用于推理阶段,尚未大规模部署。论文将在ICLR 2026正式亮相。
原文链接
小米MiMo团队推出了一种名为HySparse的混合稀疏注意力架构,显著优化了AI模型的性能。HySparse通过仅保留少量全注意力(Full Attention)层进行“token选择+KV Cache”,其余稀疏注意力(Sparse Attention)层复用这些信息,从而高效处理长上下文建模。...
原文链接
标题:榨干GPU性能,中兴Mariana突破显存壁垒
正文:
大语言模型(LLM)在各行业的应用日益广泛,但推理效率与显存成本之间的矛盾愈发突出。KV Cache作为提升生成速度的核心技术,却因显存占用过高成为制约模型扩展和并发能力的瓶颈。如何高效扩展KV Cache存储空间,已成为AI领域的关...
原文链接
加载更多
暂无内容