谷歌推出压缩算法TurboQuant 宣称实现约6倍内存节省

2026-03-26 10:55:13

Oasis

发布在

快讯

阅读：1108

谷歌近日推出压缩算法TurboQuant，宣称可降低AI系统内存需求，实现约6倍键值缓存内存压缩。该技术针对大语言模型和向量搜索引擎中的键值缓存瓶颈问题，能在不重新训练或微调模型的情况下，将缓存压缩至3bit精度，同时基本保持模型准确率。测试显示，包括Gemma、Mistral等开源模型在内，TurboQuant最高可提升英伟达H100加速器性能约8倍。研究人员称，该技术还可优化大规模搜索引擎的向量检索能力。谷歌计划于4月在国际学习表征会议（ICLR 2026）上展示这一技术。

原文链接

本文链接：https://kx.umi6.com/article/34153.html

转载请注明文章出处

TurboQuant