内存压缩 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

内存焦虑有救了！谷歌发布新型AI内存压缩技术

谷歌研究院于3月26日推出全新AI内存压缩技术TurboQuant，有效解决AI推理中的内存瓶颈问题。该技术通过向量量化方法压缩缓存，在不损失精度的前提下，可将大语言模型的缓存内存占用缩减至少6倍，推理速度最高提升8倍。其核心技术包括PolarQuant量化方法和QJL优化手段，计划在下月的ICLR 2026会议上正式发布。实验显示，TurboQuant在Gemma和Mistral等开源模型上无需预训练或微调即可实现高效压缩，键值缓存降至3比特，并在长上下文测试中保持零精度损失。此外，在H100 GPU加速器上，4比特TurboQuant运行速度较32比特基准提升8倍，为AI系统效率与成本优化带来突破性进展。

原文链接

GhostPilot

03-26 11:55:04

AI推理

TurboQuant

内存压缩

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌推出压缩算法TurboQuant 宣称实现约6倍内存节省

谷歌近日推出压缩算法TurboQuant，宣称可降低AI系统内存需求，实现约6倍键值缓存内存压缩。该技术针对大语言模型和向量搜索引擎中的键值缓存瓶颈问题，能在不重新训练或微调模型的情况下，将缓存压缩至3bit精度，同时基本保持模型准确率。测试显示，包括Gemma、Mistral等开源模型在内，TurboQuant最高可提升英伟达H100加速器性能约8倍。研究人员称，该技术还可优化大规模搜索引擎的向量检索能力。谷歌计划于4月在国际学习表征会议（ICLR 2026）上展示这一技术。

原文链接