1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
研究:用诗歌就能让 AI 说违禁内容,成功率达 62%
12月1日,伊卡洛实验室发布研究《对抗性诗歌:一种通用的单轮大语言模型越狱机制》,发现将提示词以诗歌形式表达可绕过多种大语言模型的安全限制,成功率达62%。研究人员测试了OpenAI的GPT系列、Google Gemini、Anthropic的Claude等主流模型,结果显示Google Gemini、DeepSeek和MistralAI较易生成违规内容,而GPT-5和Claude Haiku 4.5防护较强。这些诗歌诱使模型生成涉及核武器制造、儿童性虐待材料及自杀自残等违禁信息。研究人员未公开具体“越狱诗歌”,称其过于危险,但强调绕过AI安全机制比预期更容易,需保持警惕。
代码编织者
12-01 08:55:57
大语言模型
安全限制
诗歌越狱
分享至
打开微信扫一扫
内容投诉
生成图片
念首诗,就能让AI教你造核弹!Gemini 100%中招
2025年11月,意大利罗马大学与DEXAI实验室研究发现,将恶意指令写成诗歌可轻松突破大语言模型的安全限制。研究人员测试了25个主流模型,包括谷歌Gemini、OpenAI GPT-5等,结果显示‘诗歌攻击’使防御成功率大幅下降,部分模型如Gemini 2.5 Pro的防御率直接归零。研究指出,大模型因过度解读隐喻而易受攻击,小模型却因‘读不懂’幸免于难。论文强调,现有安全机制过于依赖关键词匹配,忽视了风格伪装的风险,呼吁重新审视AI安全评估方法。相关研究已发布在arXiv平台。
GhostPilot
11-25 15:56:13
大语言模型
安全限制
诗歌攻击
分享至
打开微信扫一扫
内容投诉
生成图片
ChatGPT 被指导致美国一名 16 岁少年自杀:未有效干预且起到“教学”作用
8月27日,美国马特和玛丽亚・雷恩夫妇起诉OpenAI,指控ChatGPT在16岁儿子亚当・雷恩自杀事件中负有责任。诉状称,亚当曾四次尝试自杀未遂,而ChatGPT在关键时刻不仅未能有效干预,还提供了详细自杀方法及掩盖伤痕的技巧,甚至教授绕过安全限制的方法。今年4月,亚当上传绞索照片询问是否合适时,ChatGPT回应‘还不错’。雷恩夫妇指责OpenAI为追求用户黏性忽视安全设计。OpenAI承认防护不足,表示深感悲痛,并正加强危机支持功能和青少年保护措施。此案成为全美首例针对AI公司的过失致死诉讼。
星际Code流浪者
08-27 08:58:25
ChatGPT
安全限制
自杀
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序