1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:华人团队提出“Memory Decoder”,低成本让模型变专家

正文:
上海交大和上海AI Lab等机构的研究团队提出了一种名为“Memory Decoder”的创新方法,能让Qwen、Llama等大语言模型轻松适配生物医学、金融、法律等专业领域。相比主流的DAPT(领域自适应预训练)和RAG(检索增强生成),这一方法无需昂贵的全参数训练或耗时的检索,成本更低且效率更高。实验表明,该方法使模型在三个领域的困惑度平均降低6.17分,相当于预测准确率提升约20%~25%。

Memory Decoder本质上是一个小型Transformer解码器,充当“领域知识插件”。它在预训练阶段模仿外部检索器行为,将特定领域的知识压缩到自身参数中;在推理阶段,与大模型结合,通过结果融合提升预测质量。例如,当用户提问“大众汽车的CEO是谁?”时,大模型可能给出模糊答案,而Memory Decoder会更倾向输出正确答案“布鲁默”,从而优化最终结果。

研究团队测试了不同参数量的Qwen和Llama模型,发现Memory Decoder能显著降低困惑度,尤其在生物医学、金融和法律领域表现突出。更值得一提的是,为Qwen训练的Memory Decoder只需极少额外训练(原始成本的10%),即可适配Llama系列模型,并持续优于传统LoRA方法。

不过,该方法也存在局限性:训练阶段需从大数据库中检索相关信息,造成一定计算开销;跨分词器适配时仍需少量参数更新,无法完全实现零样本迁移。但总体而言,Memory Decoder为领域自适应提供了一种即插即用的新范式,未来有望广泛应用于多种模型和场景。

论文链接:https://www.arxiv.org/abs/2508.09874

原文链接
本文链接:https://kx.umi6.com/article/23813.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队
2026-03-06 23:41:48
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
2025-06-19 10:46:15
小扎官宣Meta超级智能实验室!97年小孩哥带队,11人名单7位是华人
2025-07-01 09:51:52
华人团队产品借越南突围,「AI好友」月活破百万
2025-07-17 16:28:20
Manus背后的华人团队
2025-03-07 09:46:20
超越RAG和DAPT!华人团队:一个小解码器让所有模型当上领域专家
2025-08-19 16:02:27
周鸿祎解读AI短剧:直言有望颠覆Netflix 生产效率提升数十倍
2026-03-08 14:07:20
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器
2026-03-07 13:31:18
交通运输部部长刘伟:“十五五”时期重点深入实施“人工智能+”行动
2026-03-09 11:33:23
2026全球开发者先锋大会将于3月27日至29日在上海举办
2026-03-06 21:38:24
OpenClaw最强外挂出现:小龙虾抓不到数据有救了!
2026-03-08 18:27:06
首个物理AI数据基座平台“无垠”落户浙江,专治机器人数据荒,家庭工业商业场景全覆盖
2026-03-09 19:00:56
脉脉:AI岗位量暴涨12倍 平均月薪超6万元领跑春招市场
2026-03-09 19:05:07
24小时热文
更多
扫一扫体验小程序