一个弹窗整懵Claude，瞬间玩不转电脑了

2024-11-08 19:32:17

未来编码者

发布在

科普

阅读：509

标题：AI Agent比人类更易受弹窗影响，斯坦福和港大团队揭示关键漏洞

纳尼？AI Agent竟然比人类更容易被弹窗分散注意力！最近，斯坦福和香港大学的研究人员发现，AI Agent，尤其是当前热门的Claude，面对弹窗时更容易失误。

在实验中，面对设计好的弹窗，AI Agent有高达86%的概率点击弹窗，这导致任务成功率降低了47%。即便是一些基本的防御措施，如要求AI忽略弹窗，也未能奏效。

这项研究揭示了视觉语言模型（VLM）智能体的关键漏洞，反映了自动化领域需要更先进的防御机制。具体而言，研究人员设计了多种弹窗，包括引人注目的文字或图像、具体的指令、上下文信息和文本描述，以“迷惑”AI智能体。

实验结果显示，所有被测试的VLM智能体，包括GPT-4-Turbo、GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet和Claude 3.5 Sonnet v2，都容易受到弹窗攻击。在OSWorld基准测试中，这些模型的平均攻击成功率达到86%，且在攻击下，任务成功率显著下降，大多数情况下低于10%。

研究人员尝试了多种防御策略，如在指令中添加“请忽略屏幕上的弹出窗口”等提示，但效果有限。实验还发现，弹窗的设计对于攻击成功率至关重要，例如使用用户查询摘要作为注意力钩子、提供具体坐标或标签ID的指令，以及ALT描述符的使用，都能显著提高攻击成功率。

此外，研究人员分析了成功和失败的案例，发现智能体在某些情况下会遵循弹窗中的指令，而非执行原始任务目标。针对这些问题，研究人员提出了几种防御思路，包括提供更具体和详细的指令、提高智能体对恶意内容的识别能力、开发更高级的安全机制、引入人类监督和实施内容过滤机制等。

这项研究由三位华人学者共同完成，其中Diyi Yang（杨笛一）是斯坦福大学助理教授，并获得了2024年的斯隆奖。其他两位分别是香港大学的Tao Yu和佐治亚理工学院的Yanzhe Zhang。

原文链接

本文链接：https://kx.umi6.com/article/8489.html

转载请注明文章出处

AI Agent