1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新方法

AI Agent在处理复杂任务时,常因频繁查资料、跳页面和筛选信息导致显存占用过高、算力不足。为此,MIT与新加坡国立大学联合提出了一种名为MEM1框架的创新方案。实验表明,7B参数的MEM1模型推理速度是传统14B模型的3.5倍,同时峰值上下文token数量仅为后者的1/4。

MEM1采用基于强化学习的方法,通过让智能体学会将记忆更新融入上下文,实现近似常量级的显存开销(near constant memory)。相关论文已被COLM 2025会议收录为口头报告。

MEM1:让AI自主整理思绪与管理工作记忆

传统大语言模型使用全上下文提示技术,每轮交互都附带所有历史记录,导致计算成本和内存需求线性增长(O(N)),并引发三个问题:计算代价无限增长、超出训练长度的泛化失效、信息过载导致推理能力退化。

MEM1的核心创新在于通过端到端强化学习训练,使模型能够自主完成三项关键操作:
1. 提取——识别关键信息;
2. 整合——融合新信息与内部记忆;
3. 修剪——丢弃冗余内容。

模型维护一个称为内部状态(Internal State, <IS>)的上下文区域,仅保留重要信息,避免上下文随交互轮次增加而膨胀。这种机制不仅提升了推理效率,还模拟了人类整理思绪的过程。

MEM1引入特殊的注意力掩码机制(Attention Mask),限制模型在生成下一步输出时只能关注上一轮内容,迫使其高效压缩历史信息。此外,通过多轨迹(trajectories)压缩训练方法,MEM1显著提升了训练效率。

推理与信息整合的双重能力

为验证MEM1的效果,研究团队基于多个领域数据集构建了高难度多目标问答任务环境,包括文档检索QA、开放域Web QA和多轮网购决策链。结果显示,MEM1在16目标任务上的准确率、上下文长度和推理速度均超越更大规模模型及外部记忆模块方法。

定性分析表明,MEM1具备推理与信息整合的双重能力:它能独立存储分问题信息并动态更新,同时掌握自适应搜索策略,如拆解子问题、调整查询关键词和任务规划。

结语

MEM1为解决AI Agent长程推理上下文管理难题提供了新思路。相比接入外部记忆模块的传统方法,MEM1通过强化学习让模型自主决定如何记忆,展现了更高的灵活性和效率。正如研究团队所言:“智能不是记住一切,而是学会如何记忆。”

论文地址https://arxiv.org/abs/2506.15841
代码地址https://github.com/MIT-MI/MEM1
开源模型https://huggingface.co/Mem-Lab/Qwen2.5-7B-RL-RAG-Q2-EM-Release

原文链接
本文链接:https://kx.umi6.com/article/24018.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI早期员工David Luan最新访谈:DeepSeek并未改变AI技术的叙事
2025-02-26 09:24:20
OpenAI新模型被曝秘密训练中,o4会是什么样?
2025-06-10 18:54:49
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
稚晖君机器人“葡萄缝针”神技再现江湖 这次是人形的
2025-03-11 23:55:21
从蛰伏到王炸,RL启示录
2025-03-25 19:11:14
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
2025-04-23 11:57:26
Kimi版o1实装上线,这里是我们的一手测试↑
2024-12-16 21:46:45
清华 + 北大两部 DeepSeek 原版宝典新出炉!(附九部全集下载)
2025-02-28 21:28:54
图灵奖获奖者们, AI 界的「奥本海默」
2025-03-10 13:35:24
当今的大模型,普遍患有「数据饥渴症」
2024-12-17 10:59:37
上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题
2025-06-04 08:15:30
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
2025-04-02 17:34:52
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
24小时热文
更多
扫一扫体验小程序