1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek-R1背后的多头潜在注意力机制(MLA)现已能轻松迁移到其他模型,仅需原始数据的0.3%~0.6%。该研究由复旦大学、华东师范大学、上海AI Lab等联合提出,复旦教授邱锡鹏也在作者名单之列。

MHA2MLA方法通过两部分实现高效微调:partial-RoPE和低秩近似。Partial-RoPE移除了对注意力分数贡献较小的RoPE维度,而低秩近似则基于预训练参数进行SVD分解,用低秩矩阵替代原始键值矩阵,从而减少计算量和内存占用。

以Llama2-7B为例,MHA2MLA不仅大幅减少了KV缓存(92.19%),还将性能损失控制在较小范围(LongBench性能仅下降0.5%)。实验显示,四个基础模型的性能变化极小,且较大模型在转换时性能下降更少。

此外,MHA2MLA与量化技术兼容良好,例如在dkv=16时,压缩率达87.5%,精度损失仅3%。未来,研究人员计划在更多模型上验证该方法。

原文链接
本文链接:https://kx.umi6.com/article/14185.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
国产AI搜索接入DeepSeek-R1!我们深度试玩了一下
2025-02-03 10:06:40
腾讯元宝接入DeepSeek-R1满血版,首次引入第三方模型,能联网能调用微信独家生态
2025-02-13 16:04:01
DeepSeek-R1 大模型登陆腾讯云,宣称“一键部署、3 分钟调用”
2025-02-02 11:44:23
24小时热文
更多
扫一扫体验小程序