DeepSeek-R1背后的多头潜在注意力机制(MLA)现已能轻松迁移到其他模型,仅需原始数据的0.3%~0.6%。该研究由复旦大学、华东师范大学、上海AI Lab等联合提出,复旦教授邱锡鹏也在作者名单之列。
MHA2MLA方法通过两部分实现高效微调:partial-RoPE和低秩近似。Partial-RoPE移除了对注意力分数贡献较小的RoPE维度,而低秩近似则基于预训练参数进行SVD分解,用低秩矩阵替代原始键值矩阵,从而减少计算量和内存占用。
以Llama2-7B为例,MHA2MLA不仅大幅减少了KV缓存(92.19%),还将性能损失控制在较小范围(LongBench性能仅下降0.5%)。实验显示,四个基础模型的性能变化极小,且较大模型在转换时性能下降更少。
此外,MHA2MLA与量化技术兼容良好,例如在dkv=16时,压缩率达87.5%,精度损失仅3%。未来,研究人员计划在更多模型上验证该方法。
原文链接
本文链接:https://kx.umi6.com/article/14185.html
转载请注明文章出处
相关推荐
换一换
消息称微信正在内测接入 DeepSeek-R1 大模型
2025-02-15 22:10:02
vivo 正式上线满血版 DeepSeek-R1
2025-02-25 17:01:36
硅基流动:全面支持基于昇腾算力的DeepSeek-R1&V3私有化集群部署
2025-02-15 07:58:46
OPPO ColorOS 小布助手完成 DeepSeek R1 最新版升级
2025-06-09 15:31:10
配这种CPU,GPU单卡就能跑满血DeepSeek-R1,至强+ AMX让预填充速度起飞
2025-02-14 16:40:26
智联招聘官宣接入DeepSeek:推出AI招聘助手“Ailin”
2025-02-06 16:34:25
网易有道全面拥抱DeepSeek-R1,加速AI教育应用商业化落地
2025-02-07 19:07:44
DeepSeek-R1 论文登上《自然》封面,通讯作者为梁文锋
2025-09-18 09:48:42
QQ浏览器接入DeepSeek-R1满血版
2025-02-16 14:28:42
英伟达宣布创造满血 DeepSeek-R1 模型 AI 推理性能的世界纪录
2025-03-19 09:22:05
DeepSeek,引爆AI手机?
2025-02-07 12:53:26
OpenAI 阿尔特曼:DeepSeek-R1 令人印象深刻,将推出更好的模型
2025-01-28 13:47:03
中文在线:已在部分内部 AI 网文创作流程中部署 DeepSeek-R1
2025-02-05 22:14:26
660 文章
412808 浏览
24小时热文
更多
-
2026-01-23 21:15:09 -
2026-01-23 21:14:01 -
2026-01-23 20:15:45