突破Agent长程推理效率瓶颈！MIT&NUS联合推出强化学习新训练方法

2025-08-22 16:50:16

Oasis

发布在

科普

阅读：63

突破Agent长程推理效率瓶颈！MIT&NUS联合推出强化学习新方法

AI Agent在处理复杂任务时，常因频繁查资料、跳页面和筛选信息导致显存占用过高、算力不足。为此，MIT与新加坡国立大学联合提出了一种名为MEM1框架的创新方案。实验表明，7B参数的MEM1模型推理速度是传统14B模型的3.5倍，同时峰值上下文token数量仅为后者的1/4。

MEM1采用基于强化学习的方法，通过让智能体学会将记忆更新融入上下文，实现近似常量级的显存开销（near constant memory）。相关论文已被COLM 2025会议收录为口头报告。

传统大语言模型使用全上下文提示技术，每轮交互都附带所有历史记录，导致计算成本和内存需求线性增长（O(N)），并引发三个问题：计算代价无限增长、超出训练长度的泛化失效、信息过载导致推理能力退化。

MEM1的核心创新在于通过端到端强化学习训练，使模型能够自主完成三项关键操作：
1. 提取——识别关键信息；
2. 整合——融合新信息与内部记忆；
3. 修剪——丢弃冗余内容。

模型维护一个称为内部状态（Internal State, <IS>）的上下文区域，仅保留重要信息，避免上下文随交互轮次增加而膨胀。这种机制不仅提升了推理效率，还模拟了人类整理思绪的过程。

MEM1引入特殊的注意力掩码机制（Attention Mask），限制模型在生成下一步输出时只能关注上一轮内容，迫使其高效压缩历史信息。此外，通过多轨迹（trajectories）压缩训练方法，MEM1显著提升了训练效率。

为验证MEM1的效果，研究团队基于多个领域数据集构建了高难度多目标问答任务环境，包括文档检索QA、开放域Web QA和多轮网购决策链。结果显示，MEM1在16目标任务上的准确率、上下文长度和推理速度均超越更大规模模型及外部记忆模块方法。

定性分析表明，MEM1具备推理与信息整合的双重能力：它能独立存储分问题信息并动态更新，同时掌握自适应搜索策略，如拆解子问题、调整查询关键词和任务规划。

MEM1为解决AI Agent长程推理上下文管理难题提供了新思路。相比接入外部记忆模块的传统方法，MEM1通过强化学习让模型自主决定如何记忆，展现了更高的灵活性和效率。正如研究团队所言：“智能不是记住一切，而是学会如何记忆。”

原文链接

本文链接：https://kx.umi6.com/article/24018.html

转载请注明文章出处

MEM1

强化学习

长程推理

分享至

打开微信扫一扫

内容投诉

生成图片

Oasis

451 文章

114244 浏览

24小时热文