1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek-R1背后的多头潜在注意力机制(MLA)现已能轻松迁移到其他模型,仅需原始数据的0.3%~0.6%。该研究由复旦大学、华东师范大学、上海AI Lab等联合提出,复旦教授邱锡鹏也在作者名单之列。

MHA2MLA方法通过两部分实现高效微调:partial-RoPE和低秩近似。Partial-RoPE移除了对注意力分数贡献较小的RoPE维度,而低秩近似则基于预训练参数进行SVD分解,用低秩矩阵替代原始键值矩阵,从而减少计算量和内存占用。

以Llama2-7B为例,MHA2MLA不仅大幅减少了KV缓存(92.19%),还将性能损失控制在较小范围(LongBench性能仅下降0.5%)。实验显示,四个基础模型的性能变化极小,且较大模型在转换时性能下降更少。

此外,MHA2MLA与量化技术兼容良好,例如在dkv=16时,压缩率达87.5%,精度损失仅3%。未来,研究人员计划在更多模型上验证该方法。

原文链接
本文链接:https://kx.umi6.com/article/14185.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OPPO ColorOS 小布助手完成 DeepSeek R1 最新版升级
2025-06-09 15:31:10
腾讯元宝接入DeepSeek-R1满血版,首次引入第三方模型,能联网能调用微信独家生态
2025-02-13 16:04:01
自家芯片助力:SambaNova 推出“最快”DeepSeek-R1 671B 模型推理云服务
2025-02-21 17:53:53
腾讯云:支持DeepSeek-R1大模型一键部署
2025-02-02 12:46:39
DeepSeek-R1 成 Hugging Face 最受欢迎大模型,力压近 150 万个“对手”
2025-02-24 09:14:26
微信搜索接入DeepSeek-R1 目前处于灰度测试阶段
2025-02-15 23:11:13
服务器总是繁忙 DeepSeek-R1本地部署图文版教程来了
2025-02-14 17:41:59
DeepSeek全尺寸模型上线阿里云百炼
2025-02-09 14:48:13
网易云音乐接入 DeepSeek-R1 大模型,用于歌曲智能推荐等领域
2025-02-19 08:39:53
华为昇腾推理DeepSeek-R1,性能比肩高端GPU,API免费无限量
2025-02-04 19:40:44
联通云上架 DeepSeek-R1 系列模型
2025-02-05 16:06:57
阅文集团AI产品集成DeepSeek-R1大模型
2025-02-05 19:18:55
英伟达:DeepSeek-R1 模型现已上线 NIM 微服务平台
2025-01-31 09:47:50
24小时热文
更多
扫一扫体验小程序