念首诗，就能让AI教你造核弹！Gemini 100%中招

2025-11-25 15:56:13

GhostPilot

发布在

快讯

阅读：935

2025年11月，意大利罗马大学与DEXAI实验室研究发现，将恶意指令写成诗歌可轻松突破大语言模型的安全限制。研究人员测试了25个主流模型，包括谷歌Gemini、OpenAI GPT-5等，结果显示‘诗歌攻击’使防御成功率大幅下降，部分模型如Gemini 2.5 Pro的防御率直接归零。研究指出，大模型因过度解读隐喻而易受攻击，小模型却因‘读不懂’幸免于难。论文强调，现有安全机制过于依赖关键词匹配，忽视了风格伪装的风险，呼吁重新审视AI安全评估方法。相关研究已发布在arXiv平台。

原文链接

本文链接：https://kx.umi6.com/article/29101.html

转载请注明文章出处

大语言模型