1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

字节Seed开源长线记忆多模态Agent,像人一样能听会看

字节Seed推出全新多模态智能体框架——M3-Agent,具备实时视觉和听觉处理能力,并拥有长期记忆功能,完全免费开源。其核心优势在于能够通过实时感知构建和更新长期记忆,同时积累语义知识。

为评估多模态智能体的记忆与推理能力,字节Seed联合浙江大学和上海交通大学开发了长视频问答基准M3-Bench,同样开源。实验表明,经过强化学习训练的M3-Agent在多个基准测试中表现显著优于基线模型(如Gemini-1.5-Pro和GPT-4o)。

M3-Agent的核心设计基于两个关键洞察:
1. 以实体为中心的多模态记忆至关重要。通过为人脸、语音和文本分配持久ID,建立结构化记忆,大幅提升长视频推理能力。
2. 检索推理优于单次RAG。通过强化学习策略决定何时及如何查询记忆,实现多轮迭代推理,效果远超一次性检索。

M3-Agent框架包含“记忆过程”和“控制过程”。记忆过程持续感知多模态输入,生成两种记忆类型:
- 事件记忆:记录具体事件,如“某人拿起咖啡并说话”。
- 语义记忆:提取一般知识,如“某人喜欢喝咖啡”。

这些记忆以实体为中心组织,逐步完善关联关系。控制过程则利用长期记忆进行推理,完成任务时采用强化学习实现多轮检索,提高成功率。

M3-Bench数据集用于评估智能体的长期记忆推理能力,包含两类视频:
- M3-Bench-robot:100个真实世界第一人称视角视频。
- M3-Bench-web:920个网络来源视频,覆盖多样化场景。

测试结果显示,M3-Agent在M3-Bench-robot、M3-Bench-web等基准上均大幅领先基线模型,尤其在人类理解和跨模态推理方面表现突出。

论文与代码详见:
论文 | 代码

原文链接
本文链接:https://kx.umi6.com/article/23747.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
现场Live震撼!OmAgent框架强势开源!行业应用已全面开花
2024-07-06 08:43:52
中国信通院:正式启动多模态智能体技术规范编制工作
2025-03-10 18:51:48
多模态智能体加快发展:中国信通院启动技术规范编制 武汉同步发力
2025-03-10 20:56:24
字节Seed开源长线记忆多模态Agent,像人一样能听会看
2025-08-18 16:49:59
中国信通院:正式启动多模态智能体技术规范编制工作 将召开技术规范研讨会
2025-03-10 17:53:32
天桥脑科学研究院团队自研的OMNE AI大模型框架登上基准测试GAIA榜首
2024-10-24 13:09:52
字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体
2025-04-18 09:04:49
中国信通院启动多模态智能体技术规范编制 AI智能体迎爆发元年
2025-03-11 08:17:41
特朗普的“芯片保护费”:黄仁勋的豪赌与科技战新规则
2025-08-16 22:29:44
奥特曼神秘晚宴讲话曝出!OpenAI的CEO或将是个AI,Chrome我也想买
2025-08-17 15:36:36
当AI会写代码,新一代学生还要学编程吗?
2025-08-18 17:52:04
Anthropic 宣布为 Claude 赋予“结束聊天”能力,以应对极少数用户不怀好意的情况
2025-08-17 16:37:59
科学岛团队提出医疗大模型智能体决策框架FRAME
2025-08-18 17:54:22
24小时热文
更多
扫一扫体验小程序