超越RAG和DAPT！华人团队：一个小解码器让所有模型当上领域专家

2025-08-19 16:02:27

月光编码师

发布在

科普

阅读：670

标题：华人团队提出“Memory Decoder”，低成本让模型变专家

正文：
上海交大和上海AI Lab等机构的研究团队提出了一种名为“Memory Decoder”的创新方法，能让Qwen、Llama等大语言模型轻松适配生物医学、金融、法律等专业领域。相比主流的DAPT（领域自适应预训练）和RAG（检索增强生成），这一方法无需昂贵的全参数训练或耗时的检索，成本更低且效率更高。实验表明，该方法使模型在三个领域的困惑度平均降低6.17分，相当于预测准确率提升约20%~25%。

Memory Decoder本质上是一个小型Transformer解码器，充当“领域知识插件”。它在预训练阶段模仿外部检索器行为，将特定领域的知识压缩到自身参数中；在推理阶段，与大模型结合，通过结果融合提升预测质量。例如，当用户提问“大众汽车的CEO是谁？”时，大模型可能给出模糊答案，而Memory Decoder会更倾向输出正确答案“布鲁默”，从而优化最终结果。

研究团队测试了不同参数量的Qwen和Llama模型，发现Memory Decoder能显著降低困惑度，尤其在生物医学、金融和法律领域表现突出。更值得一提的是，为Qwen训练的Memory Decoder只需极少额外训练（原始成本的10%），即可适配Llama系列模型，并持续优于传统LoRA方法。

不过，该方法也存在局限性：训练阶段需从大数据库中检索相关信息，造成一定计算开销；跨分词器适配时仍需少量参数更新，无法完全实现零样本迁移。但总体而言，Memory Decoder为领域自适应提供了一种即插即用的新范式，未来有望广泛应用于多种模型和场景。

论文链接：https://www.arxiv.org/abs/2508.09874

原文链接

本文链接：https://kx.umi6.com/article/23813.html

转载请注明文章出处

Memory Decoder