突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新方法
AI Agent在处理复杂任务时,常因频繁查资料、跳页面和筛选信息导致显存占用过高、算力不足。为此,MIT与新加坡国立大学联合提出了一种名为MEM1框架的创新方案。实验表明,7B参数的MEM1模型推理速度是传统14B模型的3.5倍,同时峰值上下文token数量仅为后者的1/4。
MEM1采用基于强化学习的方法,通过让智能体学会将记忆更新融入上下文,实现近似常量级的显存开销(near constant memory)。相关论文已被COLM 2025会议收录为口头报告。
MEM1:让AI自主整理思绪与管理工作记忆
传统大语言模型使用全上下文提示技术,每轮交互都附带所有历史记录,导致计算成本和内存需求线性增长(O(N)),并引发三个问题:计算代价无限增长、超出训练长度的泛化失效、信息过载导致推理能力退化。
MEM1的核心创新在于通过端到端强化学习训练,使模型能够自主完成三项关键操作:
1. 提取——识别关键信息;
2. 整合——融合新信息与内部记忆;
3. 修剪——丢弃冗余内容。
模型维护一个称为内部状态(Internal State, <IS>)的上下文区域,仅保留重要信息,避免上下文随交互轮次增加而膨胀。这种机制不仅提升了推理效率,还模拟了人类整理思绪的过程。
MEM1引入特殊的注意力掩码机制(Attention Mask),限制模型在生成下一步输出时只能关注上一轮内容,迫使其高效压缩历史信息。此外,通过多轨迹(trajectories)压缩训练方法,MEM1显著提升了训练效率。
推理与信息整合的双重能力
为验证MEM1的效果,研究团队基于多个领域数据集构建了高难度多目标问答任务环境,包括文档检索QA、开放域Web QA和多轮网购决策链。结果显示,MEM1在16目标任务上的准确率、上下文长度和推理速度均超越更大规模模型及外部记忆模块方法。
定性分析表明,MEM1具备推理与信息整合的双重能力:它能独立存储分问题信息并动态更新,同时掌握自适应搜索策略,如拆解子问题、调整查询关键词和任务规划。
结语
MEM1为解决AI Agent长程推理上下文管理难题提供了新思路。相比接入外部记忆模块的传统方法,MEM1通过强化学习让模型自主决定如何记忆,展现了更高的灵活性和效率。正如研究团队所言:“智能不是记住一切,而是学会如何记忆。”
论文地址:https://arxiv.org/abs/2506.15841
代码地址:https://github.com/MIT-MI/MEM1
开源模型:https://huggingface.co/Mem-Lab/Qwen2.5-7B-RL-RAG-Q2-EM-Release
.png)

-
2025-08-23 08:59:22
-
2025-08-23 08:59:00
-
2025-08-23 08:58:15