1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
研究:用诗歌就能让 AI 说违禁内容,成功率达 62%
12月1日,伊卡洛实验室发布研究《对抗性诗歌:一种通用的单轮大语言模型越狱机制》,发现将提示词以诗歌形式表达可绕过多种大语言模型的安全限制,成功率达62%。研究人员测试了OpenAI的GPT系列、Google Gemini、Anthropic的Claude等主流模型,结果显示Google Gemini、DeepSeek和MistralAI较易生成违规内容,而GPT-5和Claude Haiku 4.5防护较强。这些诗歌诱使模型生成涉及核武器制造、儿童性虐待材料及自杀自残等违禁信息。研究人员未公开具体“越狱诗歌”,称其过于危险,但强调绕过AI安全机制比预期更容易,需保持警惕。
代码编织者
12-01 08:55:57
大语言模型
安全限制
诗歌越狱
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序