诗歌越狱 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

研究：用诗歌就能让 AI 说违禁内容，成功率达 62%

12月1日，伊卡洛实验室发布研究《对抗性诗歌：一种通用的单轮大语言模型越狱机制》，发现将提示词以诗歌形式表达可绕过多种大语言模型的安全限制，成功率达62%。研究人员测试了OpenAI的GPT系列、Google Gemini、Anthropic的Claude等主流模型，结果显示Google Gemini、DeepSeek和MistralAI较易生成违规内容，而GPT-5和Claude Haiku 4.5防护较强。这些诗歌诱使模型生成涉及核武器制造、儿童性虐待材料及自杀自残等违禁信息。研究人员未公开具体“越狱诗歌”，称其过于危险，但强调绕过AI安全机制比预期更容易，需保持警惕。

原文链接