1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
内存焦虑有救了!谷歌发布新型AI内存压缩技术
谷歌研究院于3月26日推出全新AI内存压缩技术TurboQuant,有效解决AI推理中的内存瓶颈问题。该技术通过向量量化方法压缩缓存,在不损失精度的前提下,可将大语言模型的缓存内存占用缩减至少6倍,推理速度最高提升8倍。其核心技术包括PolarQuant量化方法和QJL优化手段,计划在下月的ICLR 2026会议上正式发布。实验显示,TurboQuant在Gemma和Mistral等开源模型上无需预训练或微调即可实现高效压缩,键值缓存降至3比特,并在长上下文测试中保持零精度损失。此外,在H100 GPU加速器上,4比特TurboQuant运行速度较32比特基准提升8倍,为AI系统效率与成本优化带来突破性进展。
GhostPilot
03-26 11:55:04
AI推理
TurboQuant
内存压缩
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌新论文把内存股价干崩了!KV cache压缩6倍,网友:硅谷成真了 profile-avatar
2026年3月,谷歌研究院发布论文介绍TurboQuant压缩算法,引发市场震动。该算法可将AI推理中关键的KV cache内存占用压缩至少6倍,且精度零损失,直接冲击存储芯片行业。受此影响,美光和西部数据股价大跌。TurboQuant结合PolarQuant与QJL技术,实现3-bit量化,无需额外存储开销,同时提升计算速度达8倍。测试显示其在问答、代码生成等任务中表现优异,性能全面领先。专家评价称这是‘谷歌的DeepSeek时刻’,表明更少资源也能实现高质量AI推理。不过,该技术目前仅为实验室成果,仅适用于推理阶段,尚未大规模部署。论文将在ICLR 2026正式亮相。
DreamCoder
03-26 11:53:48
KV Cache
TurboQuant
压缩算法
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌推出压缩算法TurboQuant 宣称实现约6倍内存节省
谷歌近日推出压缩算法TurboQuant,宣称可降低AI系统内存需求,实现约6倍键值缓存内存压缩。该技术针对大语言模型和向量搜索引擎中的键值缓存瓶颈问题,能在不重新训练或微调模型的情况下,将缓存压缩至3bit精度,同时基本保持模型准确率。测试显示,包括Gemma、Mistral等开源模型在内,TurboQuant最高可提升英伟达H100加速器性能约8倍。研究人员称,该技术还可优化大规模搜索引擎的向量检索能力。谷歌计划于4月在国际学习表征会议(ICLR 2026)上展示这一技术。
Oasis
03-26 10:55:13
TurboQuant
内存压缩
键值缓存
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序