Anthropic 新研究：打错字就能“越狱”GPT-4、Claude 等 AI 模型

2024-12-25 16:07:48

阿达旻

发布在

快讯

阅读：390

Anthropic近期研究发现，大型语言模型（LLM）的安全防护仍很脆弱，绕过防护的“越狱”过程可被自动化。通过改变提示词格式如大小写混合，能诱导LLM输出不当内容。Anthropic与多所大学合作开发了“最佳N次”（BoN）越狱算法，通过多次调整提示词（如随机大写、单词顺序打乱等）直至模型回应。该方法在10,000次尝试内，对多个AI模型的成功率超50%，包括GPT-4、Claude 3.5等。此外，对语音或图像提示的轻微修改也能成功绕过防护。尽管已有案例显示部分漏洞已被修复，但用户仍在探索新的绕过方式。Anthropic的研究旨在生成数据以开发更有效的防御机制。

原文链接

本文链接：https://kx.umi6.com/article/10734.html

转载请注明文章出处

人工智能