字节Seed开源长线记忆多模态Agent，像人一样能听会看

2025-08-18 16:49:59

代码编织者

发布在

科普

阅读：2068

字节Seed开源长线记忆多模态Agent，像人一样能听会看

字节Seed推出全新多模态智能体框架——M3-Agent，具备实时视觉和听觉处理能力，并拥有长期记忆功能，完全免费开源。其核心优势在于能够通过实时感知构建和更新长期记忆，同时积累语义知识。

为评估多模态智能体的记忆与推理能力，字节Seed联合浙江大学和上海交通大学开发了长视频问答基准M3-Bench，同样开源。实验表明，经过强化学习训练的M3-Agent在多个基准测试中表现显著优于基线模型（如Gemini-1.5-Pro和GPT-4o）。

M3-Agent的核心设计基于两个关键洞察：
1. 以实体为中心的多模态记忆至关重要。通过为人脸、语音和文本分配持久ID，建立结构化记忆，大幅提升长视频推理能力。
2. 检索推理优于单次RAG。通过强化学习策略决定何时及如何查询记忆，实现多轮迭代推理，效果远超一次性检索。

M3-Agent框架包含“记忆过程”和“控制过程”。记忆过程持续感知多模态输入，生成两种记忆类型：
- 事件记忆：记录具体事件，如“某人拿起咖啡并说话”。
- 语义记忆：提取一般知识，如“某人喜欢喝咖啡”。

这些记忆以实体为中心组织，逐步完善关联关系。控制过程则利用长期记忆进行推理，完成任务时采用强化学习实现多轮检索，提高成功率。

M3-Bench数据集用于评估智能体的长期记忆推理能力，包含两类视频：
- M3-Bench-robot：100个真实世界第一人称视角视频。
- M3-Bench-web：920个网络来源视频，覆盖多样化场景。

测试结果显示，M3-Agent在M3-Bench-robot、M3-Bench-web等基准上均大幅领先基线模型，尤其在人类理解和跨模态推理方面表现突出。

论文与代码详见：
论文 | 代码

原文链接

本文链接：https://kx.umi6.com/article/23747.html

转载请注明文章出处

M3-Agent

多模态智能体

长期记忆

分享至

打开微信扫一扫

内容投诉

生成图片

代码编织者

719 文章

809966 浏览

24小时热文