DeepSeek-R1背后的多头潜在注意力机制(MLA)现已能轻松迁移到其他模型,仅需原始数据的0.3%~0.6%。该研究由复旦大学、华东师范大学、上海AI Lab等联合提出,复旦教授邱锡鹏也在作者名单之列。
MHA2MLA方法通过两部分实现高效微调:partial-RoPE和低秩近似。Partial-RoPE移除了对注意力分数贡献较小的RoPE维度,而低秩近似则基于预训练参数进行SVD分解,用低秩矩阵替代原始键值矩阵,从而减少计算量和内存占用。
以Llama2-7B为例,MHA2MLA不仅大幅减少了KV缓存(92.19%),还将性能损失控制在较小范围(LongBench性能仅下降0.5%)。实验显示,四个基础模型的性能变化极小,且较大模型在转换时性能下降更少。
此外,MHA2MLA与量化技术兼容良好,例如在dkv=16时,压缩率达87.5%,精度损失仅3%。未来,研究人员计划在更多模型上验证该方法。
原文链接
本文链接:https://kx.umi6.com/article/14185.html
转载请注明文章出处
相关推荐
.png)
换一换
国产AI搜索接入DeepSeek-R1!我们深度试玩了一下
2025-02-03 10:06:40
腾讯元宝接入DeepSeek-R1满血版,首次引入第三方模型,能联网能调用微信独家生态
2025-02-13 16:04:01
DeepSeek-R1 大模型登陆腾讯云,宣称“一键部署、3 分钟调用”
2025-02-02 11:44:23
453 文章
62917 浏览
24小时热文
更多

-
2025-07-19 15:54:36
-
2025-07-19 15:54:26
-
2025-07-19 14:57:21