李飞飞的答案：大模型之后，Agent向何处去？

2025-09-05 09:13:59

像素宇宙

发布在

快讯

阅读：32

标题：李飞飞的答案：大模型之后，Agent向何处去？

2025年被认为是Agent的元年，相关概念热度持续攀升。最近，一篇由李飞飞领衔的论文《Agent AI: Surveying the Horizons of Multimodal Interaction》引发广泛关注。这篇80页的综述由14位斯坦福和微软专家撰写，为略显混沌的Agent领域提供了一个清晰框架，涵盖感知、决策、行动、记忆、工具使用等模块，统一了多模态交互视角。尽管论文发表于去年底，但其提出的“从大模型到Agent”的演进路径已被谷歌、OpenAI等验证。

论文核心是提出了一种全新的智能体认知架构，包含五个模块：
1. 环境与感知：Agent主动从物理或虚拟世界中获取多模态信息，并结合任务规划进行目的性理解。
2. 认知：作为“大脑”，利用大语言模型（LLM）和视觉语言模型（VLM）处理感知信息，制定策略。
3. 行动：将决策转化为具体指令，如机器人控制或API调用，作用于环境。
4. 学习：通过预训练、强化学习等方式，从环境中不断优化能力。
5. 记忆：构建持久化知识系统，支持长期记忆和经验迁移。

这五个模块形成闭环，使Agent在每次交互中更智能高效。

大模型驱动Agent AI的能力，但也带来挑战。例如，LLM的“幻觉”问题可能导致错误决策，而环境反馈可有效校正这一缺陷。此外，社会偏见和数据隐私问题需要通过多元化训练、伦理设计和监管框架解决。

论文还探讨了Agent AI的应用潜力：
- 游戏：NPC能拥有记忆和情感，与玩家动态互动，提升沉浸感。
- 机器人：通过自然语言指令完成复杂任务，模拟训练增强鲁棒性。
- 医疗健康：辅助诊断、监控患者数据，提升诊疗效率和准确性。

尽管前景广阔，Agent AI仍面临模态融合、通用性及评测标准等挑战。李飞飞团队提出的框架为这一领域提供了重要指引，成为研究者的“地图”。

论文链接：https://arxiv.org/abs/2401.03568

原文链接

本文链接：https://kx.umi6.com/article/24730.html

转载请注明文章出处

Agent AI