
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek-R1背后的多头潜在注意力机制(MLA)现已能轻松迁移到其他模型,仅需原始数据的0.3%~0.6%。该研究由复旦大学、华东师范大学、上海AI Lab等联合提出,复旦教授邱锡鹏也在作者名单之列。
MHA2MLA方法通过两部分实现高效微调:partial-RoPE和低秩近似。Partia...
原文链接
加载更多

暂无内容