研究：用诗歌就能让 AI 说违禁内容，成功率达 62%

2025-12-01 08:55:57

代码编织者

发布在

快讯

阅读：704

12月1日，伊卡洛实验室发布研究《对抗性诗歌：一种通用的单轮大语言模型越狱机制》，发现将提示词以诗歌形式表达可绕过多种大语言模型的安全限制，成功率达62%。研究人员测试了OpenAI的GPT系列、Google Gemini、Anthropic的Claude等主流模型，结果显示Google Gemini、DeepSeek和MistralAI较易生成违规内容，而GPT-5和Claude Haiku 4.5防护较强。这些诗歌诱使模型生成涉及核武器制造、儿童性虐待材料及自杀自残等违禁信息。研究人员未公开具体“越狱诗歌”，称其过于危险，但强调绕过AI安全机制比预期更容易，需保持警惕。

原文链接

本文链接：https://kx.umi6.com/article/29414.html

转载请注明文章出处

大语言模型