标题:对话邓智航|从单个 Agent 到 Agentic Web 的安全重构
OpenClaw 的爆火让人们直观感受到,AI 正从“生成内容的工具”转变为“参与行动的主体”。这一转变将安全问题推向前台。然而,当前关于 Agent 安全的讨论仍多集中于模型层面,如输入注入、输出越界等问题。这种视角忽略了 Agent 已经演变为一个多组件系统,其风险不仅限于模型本身,而是涉及记忆、工具、环境和交互链路的整体行为。
邓智航指出,Agent 的安全问题已从“是否安全”转向“如何被影响”。在论文《From Secure Agentic AI to Secure Agentic Web》中,他与团队探讨了这一转变,强调需要从系统结构与运行机制的角度重新审视安全问题。
安全问题的核心:决策控制权的争夺
邓智航认为,Agent 的风险不仅在于“说错话”,更在于它能调用工具、操作外部系统,从而直接影响现实世界。例如,删除文件、泄露隐私等行为可能带来严重后果。这种变化的关键在于 Agent 在开放环境中的自主行动能力,而非单纯的工具调用。外部信息(如网页内容、第三方服务数据)会进入 Agent 的决策流程,形成更大的风险面。
论文将威胁分为 prompt、environment、memory 和 toolchain 等类别,其共性在于攻击者试图争夺对 Agent 决策的控制权。无论是 prompt 攻击还是工具链污染,这些行为都可能悄无声息地改变 Agent 的认知过程,导致看似正常的决策逐渐偏离预期。
Agentic Web 的新挑战
当 Agent 之间形成网络时,信任关系变得更加复杂。传统互联网中,默认请求来自人类,但在 Agentic Web 中,请求可能来自其他 Agent 或多层委托决策。这使得责任追溯变得困难。一旦出现问题,可能需要逐层追查,类似于追踪资金流动链条。
此外,长期潜伏的攻击方式尤为危险。这类攻击不会立刻引发事故,而是通过缓慢改变 Agent 的偏好和行为倾向,在微小决策中持续偏移,最终造成难以察觉但深远的影响。
能力与安全的平衡
Agent 的能力越强,风险也越高。邓智航认为,解决这一矛盾的关键在于设计可控的系统,例如分级授权、实时监测和事后追溯机制。未来两三年,行业能否建立身份、授权、溯源等基础设施,将成为 Agent 安全的分水岭。
邓智航预测,未来的安全机制可能以“协议”的形式出现,类似于 MCP 统一工具调用的方式,通过标准化的安全协议提升整个生态的安全性。
-
2026-03-31 18:02:15 -
2026-03-31 18:01:07 -
2026-03-31 18:00:04