字节Seed开源长线记忆多模态Agent,像人一样能听会看
字节Seed推出全新多模态智能体框架——M3-Agent,具备实时视觉和听觉处理能力,并拥有长期记忆功能,完全免费开源。其核心优势在于能够通过实时感知构建和更新长期记忆,同时积累语义知识。
为评估多模态智能体的记忆与推理能力,字节Seed联合浙江大学和上海交通大学开发了长视频问答基准M3-Bench,同样开源。实验表明,经过强化学习训练的M3-Agent在多个基准测试中表现显著优于基线模型(如Gemini-1.5-Pro和GPT-4o)。
M3-Agent的核心设计基于两个关键洞察:
1. 以实体为中心的多模态记忆至关重要。通过为人脸、语音和文本分配持久ID,建立结构化记忆,大幅提升长视频推理能力。
2. 检索推理优于单次RAG。通过强化学习策略决定何时及如何查询记忆,实现多轮迭代推理,效果远超一次性检索。
M3-Agent框架包含“记忆过程”和“控制过程”。记忆过程持续感知多模态输入,生成两种记忆类型:
- 事件记忆:记录具体事件,如“某人拿起咖啡并说话”。
- 语义记忆:提取一般知识,如“某人喜欢喝咖啡”。
这些记忆以实体为中心组织,逐步完善关联关系。控制过程则利用长期记忆进行推理,完成任务时采用强化学习实现多轮检索,提高成功率。
M3-Bench数据集用于评估智能体的长期记忆推理能力,包含两类视频:
- M3-Bench-robot:100个真实世界第一人称视角视频。
- M3-Bench-web:920个网络来源视频,覆盖多样化场景。
测试结果显示,M3-Agent在M3-Bench-robot、M3-Bench-web等基准上均大幅领先基线模型,尤其在人类理解和跨模态推理方面表现突出。
原文链接
本文链接:https://kx.umi6.com/article/23747.html
转载请注明文章出处
相关推荐
换一换
中国信通院:正式启动多模态智能体技术规范编制工作
2025-03-10 18:51:48
天桥脑科学研究院团队自研的OMNE AI大模型框架登上基准测试GAIA榜首
2024-10-24 13:09:52
刚刚,Claude实现「永久记忆」!官方还没上线,大神已玩疯
2026-01-21 11:00:16
中国信通院:正式启动多模态智能体技术规范编制工作 将召开技术规范研讨会
2025-03-10 17:53:32
新增开源智能体,阿里云通义千问宣布 AgentScope1.0 更新
2025-11-05 19:18:27
字节Seed开源长线记忆多模态Agent,像人一样能听会看
2025-08-18 16:49:59
多模态智能体加快发展:中国信通院启动技术规范编制 武汉同步发力
2025-03-10 20:56:24
字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体
2025-04-18 09:04:49
现场Live震撼!OmAgent框架强势开源!行业应用已全面开花
2024-07-06 08:43:52
中国信通院启动多模态智能体技术规范编制 AI智能体迎爆发元年
2025-03-11 08:17:41
上交大智能计算研究院论文:不只算对答案,大模型如何真正学会运筹建模丨ICLR 2026
2026-02-03 23:02:59
Anthropic发布新AI工具 法律软件股暴跌
2026-02-03 20:59:45
猝不及防,Adobe关停2D动画软件Animate拥抱AI!最惨学生:一学期的课白上了
2026-02-03 16:45:29
619 文章
413535 浏览
24小时热文
更多
-
2026-02-03 23:02:59 -
2026-02-03 23:01:33 -
2026-02-03 22:00:18