1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:上海AI Lab胡侠:KV Cache压缩技术让2万美金GPU媲美20万美金性能

正文:
当前,大语言模型在处理超长上下文方面取得显著突破,部分模型如MiniMax-M1、Qwen2.5-1M已支持百万Token级别的输入。然而,提升上下文长度的竞赛仍在继续,因其在金融、法律、医疗等领域的长语境任务中表现更优。谁能率先突破,便能创造更大的商业与技术价值。

上海AI Lab胡侠团队提出了一项创新方案——“通过有损计算(Lossy Computation)提高大语言模型推理效率”。其核心思路是利用大模型对低精度计算噪声的鲁棒性,主动引入可控的信息损失,以换取显著的效率提升。具体方法包括模型参数量化、KV Cache压缩、模型剪枝等路径。

该研究实现了两项关键技术突破:一是在算法层面,通过粗化远距离标记的位置信息,将语境长度扩展至原有水平的8倍;二是在系统层面,将KV Cache量化为2比特数字,实现8倍内存效率提升和3.5倍加速,且不影响模型性能。

胡侠指出,大语言模型虽具备类人对话能力,但在处理医疗文献提取等长语境任务时,仍面临“预训练长度限制”与“推理内存需求激增”的挑战。通过有损计算,团队成功解决了这些问题。例如,KV Cache压缩可让一块A100 80GB GPU的存储量增加近10倍,相当于将2万美金的GPU性能提升至20万美金级别。

该方案已在Llama模型上验证,并被主流开源框架如Hugging Face和llama.cpp采用。胡侠表示,有损计算并非适用于所有任务,例如生成程序可能对精度要求较高,但对Chatbot和罕见病问诊系统等应用效果显著。未来,团队将进一步探索2比特压缩的实际应用场景,并推动理论研究与硬件协同设计。

这一“即插即用”的技术为大模型高效推理提供了新方向,也为端侧部署奠定了基础。

原文链接
本文链接:https://kx.umi6.com/article/31306.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
图灵奖得主杨立昆:大语言模型发展已接近瓶颈,AI 仅靠文本训练无法实现人类级智能
2025-03-23 23:28:58
启明创投发布2024生成式AI十大展望
2024-07-07 23:11:55
英伟达推出 NIM AI 护栏服务,防止模型遭用户“越狱”
2025-01-18 23:40:43
从归因图到AI 的“生物学”:探索Claude3.5 Haiku 的内部机制“中”
2025-06-01 15:22:01
鸿海首个大语言模型 FoxBrain 发布:具备推理能力,未来计划部分开源
2025-03-10 16:45:45
“给 AI 讲故事”就能绕过安全机制,恶意代码编写门槛恐将大幅降低
2025-03-19 23:56:20
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-03-08 11:48:22
Agent是“新瓶装旧酒”,氛围编码不值得尝试?
2025-05-08 14:32:22
荣耀 MagicOS 9.0 升级支持 30 亿参数端侧大语言模型:功耗下降 80%,内存占用减少 1.6GB
2024-10-23 16:40:26
科学家发现多数大语言模型测试标准存在缺陷,无法客观给出评分
2025-11-08 21:59:46
美国哥伦比亚大学研究:大语言模型正在变得越来越像人类大脑
2024-12-20 11:27:54
王兴:美团将继续加大投资开发大语言模型,确保在中国拥有最佳团队
2025-05-26 21:51:58
研究揭示:大语言模型无法真正理解双关语
2025-11-24 18:08:37
24小时热文
更多
扫一扫体验小程序