谷歌近日推出压缩算法TurboQuant,宣称可降低AI系统内存需求,实现约6倍键值缓存内存压缩。该技术针对大语言模型和向量搜索引擎中的键值缓存瓶颈问题,能在不重新训练或微调模型的情况下,将缓存压缩至3bit精度,同时基本保持模型准确率。测试显示,包括Gemma、Mistral等开源模型在内,TurboQuant最高可提升英伟达H100加速器性能约8倍。研究人员称,该技术还可优化大规模搜索引擎的向量检索能力。谷歌计划于4月在国际学习表征会议(ICLR 2026)上展示这一技术。
原文链接
本文链接:https://kx.umi6.com/article/34153.html
转载请注明文章出处
相关推荐
换一换
谷歌新论文把内存股价干崩了!KV cache压缩6倍,网友:硅谷成真了 profile-avatar
2026-03-26 11:53:48
内存焦虑有救了!谷歌发布新型AI内存压缩技术
2026-03-26 11:55:04
内存厂暴跌上百亿 结果只是一个乌龙?
2026-03-30 00:17:48
内存焦虑有救了!谷歌发布新型AI内存压缩技术
2026-03-26 11:55:04
内存厂暴跌上百亿 结果只是一个乌龙?
2026-03-30 00:17:48
谷歌新内存技术“炸”了存储芯片市场 闪迪暴跌超11%
2026-03-27 09:50:19
谷歌沉默,ICLR 未回应!TurboQuant 争议背后,大厂学术霸权该如何破局?
2026-03-31 12:49:24
LeCun 10亿押注的方向,全球领先视觉大模型团队早已布局
2026-06-04 13:07:00
互联网历史上首次!机器人流量首度超越人类:占比57.5%
2026-06-07 14:36:36
Gartner 高挺:机器人产业迈入 GPT-2 发展周期,企业落地切忌盲目布局人形机器人
2026-06-05 10:57:10
智源&清华合作成果登上Science:脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
2026-06-05 19:13:44
库克亲自掌舵!一场会议改写苹果AI发展走向
2026-06-09 00:53:08
NUS 余浩泳教授:外骨骼的轻量化与任务感知丨ICRA 2026
2026-06-03 17:35:24
690 文章
613231 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41