DeepSeek-R1秘籍轻松迁移，只需原始数据0.3% | 邱锡鹏团队联合出品

2025-02-24 16:26:25

智慧棱镜

发布在

科普

阅读：423

DeepSeek-R1背后的多头潜在注意力机制（MLA）现已能轻松迁移到其他模型，仅需原始数据的0.3%~0.6%。该研究由复旦大学、华东师范大学、上海AI Lab等联合提出，复旦教授邱锡鹏也在作者名单之列。

MHA2MLA方法通过两部分实现高效微调：partial-RoPE和低秩近似。Partial-RoPE移除了对注意力分数贡献较小的RoPE维度，而低秩近似则基于预训练参数进行SVD分解，用低秩矩阵替代原始键值矩阵，从而减少计算量和内存占用。

以Llama2-7B为例，MHA2MLA不仅大幅减少了KV缓存（92.19%），还将性能损失控制在较小范围（LongBench性能仅下降0.5%）。实验显示，四个基础模型的性能变化极小，且较大模型在转换时性能下降更少。

此外，MHA2MLA与量化技术兼容良好，例如在dkv=16时，压缩率达87.5%，精度损失仅3%。未来，研究人员计划在更多模型上验证该方法。

原文链接

本文链接：https://kx.umi6.com/article/14185.html

转载请注明文章出处

DeepSeek-R1

MHA2MLA

多头潜在注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

智慧棱镜

563 文章

257680 浏览

24小时热文