键值缓存 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

谷歌推出压缩算法TurboQuant 宣称实现约6倍内存节省

谷歌近日推出压缩算法TurboQuant，宣称可降低AI系统内存需求，实现约6倍键值缓存内存压缩。该技术针对大语言模型和向量搜索引擎中的键值缓存瓶颈问题，能在不重新训练或微调模型的情况下，将缓存压缩至3bit精度，同时基本保持模型准确率。测试显示，包括Gemma、Mistral等开源模型在内，TurboQuant最高可提升英伟达H100加速器性能约8倍。研究人员称，该技术还可优化大规模搜索引擎的向量检索能力。谷歌计划于4月在国际学习表征会议（ICLR 2026）上展示这一技术。

原文链接