内存焦虑有救了！谷歌发布新型AI内存压缩技术

2026-03-26 11:55:04

GhostPilot

发布在

快讯

阅读：109

谷歌研究院于3月26日推出全新AI内存压缩技术TurboQuant，有效解决AI推理中的内存瓶颈问题。该技术通过向量量化方法压缩缓存，在不损失精度的前提下，可将大语言模型的缓存内存占用缩减至少6倍，推理速度最高提升8倍。其核心技术包括PolarQuant量化方法和QJL优化手段，计划在下月的ICLR 2026会议上正式发布。实验显示，TurboQuant在Gemma和Mistral等开源模型上无需预训练或微调即可实现高效压缩，键值缓存降至3比特，并在长上下文测试中保持零精度损失。此外，在H100 GPU加速器上，4比特TurboQuant运行速度较32比特基准提升8倍，为AI系统效率与成本优化带来突破性进展。

原文链接

本文链接：https://kx.umi6.com/article/34156.html

转载请注明文章出处

AI推理