标题:李飞飞的答案:大模型之后,Agent向何处去?
2025年被认为是Agent的元年,相关概念热度持续攀升。最近,一篇由李飞飞领衔的论文《Agent AI: Surveying the Horizons of Multimodal Interaction》引发广泛关注。这篇80页的综述由14位斯坦福和微软专家撰写,为略显混沌的Agent领域提供了一个清晰框架,涵盖感知、决策、行动、记忆、工具使用等模块,统一了多模态交互视角。尽管论文发表于去年底,但其提出的“从大模型到Agent”的演进路径已被谷歌、OpenAI等验证。
论文核心是提出了一种全新的智能体认知架构,包含五个模块:
1. 环境与感知:Agent主动从物理或虚拟世界中获取多模态信息,并结合任务规划进行目的性理解。
2. 认知:作为“大脑”,利用大语言模型(LLM)和视觉语言模型(VLM)处理感知信息,制定策略。
3. 行动:将决策转化为具体指令,如机器人控制或API调用,作用于环境。
4. 学习:通过预训练、强化学习等方式,从环境中不断优化能力。
5. 记忆:构建持久化知识系统,支持长期记忆和经验迁移。
这五个模块形成闭环,使Agent在每次交互中更智能高效。
大模型驱动Agent AI的能力,但也带来挑战。例如,LLM的“幻觉”问题可能导致错误决策,而环境反馈可有效校正这一缺陷。此外,社会偏见和数据隐私问题需要通过多元化训练、伦理设计和监管框架解决。
论文还探讨了Agent AI的应用潜力:
- 游戏:NPC能拥有记忆和情感,与玩家动态互动,提升沉浸感。
- 机器人:通过自然语言指令完成复杂任务,模拟训练增强鲁棒性。
- 医疗健康:辅助诊断、监控患者数据,提升诊疗效率和准确性。
尽管前景广阔,Agent AI仍面临模态融合、通用性及评测标准等挑战。李飞飞团队提出的框架为这一领域提供了重要指引,成为研究者的“地图”。
.png)

-
2025-09-05 14:21:15
-
2025-09-05 14:20:06
-
2025-09-05 13:22:16