1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek-R1背后的多头潜在注意力机制(MLA)现已能轻松迁移到其他模型,仅需原始数据的0.3%~0.6%。该研究由复旦大学、华东师范大学、上海AI Lab等联合提出,复旦教授邱锡鹏也在作者名单之列。

MHA2MLA方法通过两部分实现高效微调:partial-RoPE和低秩近似。Partial-RoPE移除了对注意力分数贡献较小的RoPE维度,而低秩近似则基于预训练参数进行SVD分解,用低秩矩阵替代原始键值矩阵,从而减少计算量和内存占用。

以Llama2-7B为例,MHA2MLA不仅大幅减少了KV缓存(92.19%),还将性能损失控制在较小范围(LongBench性能仅下降0.5%)。实验显示,四个基础模型的性能变化极小,且较大模型在转换时性能下降更少。

此外,MHA2MLA与量化技术兼容良好,例如在dkv=16时,压缩率达87.5%,精度损失仅3%。未来,研究人员计划在更多模型上验证该方法。

原文链接
本文链接:https://kx.umi6.com/article/14185.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
QQ 音乐已集成满血版 DeepSeek-R1,AI 助手音乐问答更精准
2025-02-11 08:39:50
百度智能云宣布上线DeepSeek-R1/V3
2025-02-03 20:16:14
超越 DeepSeek-R1,英伟达开源模型 Llama-Nemotron 登顶
2025-05-06 17:56:45
黄仁勋:DeepSeek R1点燃了全球热情
2025-02-27 21:42:17
清华大学开源项目突破大模型算力瓶颈:RTX 4090 单卡实现 DeepSeek-R1 满血运行
2025-02-15 19:10:39
京东云全面上线 DeepSeek-R1 / V3 模型,支持公有云在线部署、专混私有化实例部署
2025-02-05 12:02:10
DeepSeek-R1持续刷屏,连Open R1都来了!抱抱脸发起,1天狂揽1.9k星
2025-01-26 12:10:08
阅文集团AI产品集成DeepSeek-R1大模型
2025-02-05 19:18:55
硅基流动助力华为小艺接入 DeepSeek-R1 模型
2025-02-08 00:09:00
火遍全球的DeepSeek:科学家是怎么用它的?
2025-02-05 17:14:11
三星生活助手 App 智能体中心接入 DeepSeek-R1
2025-02-28 20:25:28
“后来者”DeepSeek:掀起算法效率革命
2025-01-30 14:30:43
QQ浏览器接入DeepSeek-R1满血版
2025-02-16 14:28:42
24小时热文
更多
扫一扫体验小程序