综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年11月,意大利罗马大学与DEXAI实验室研究发现,将恶意指令写成诗歌可轻松突破大语言模型的安全限制。研究人员测试了25个主流模型,包括谷歌Gemini、OpenAI GPT-5等,结果显示‘诗歌攻击’使防御成功率大幅下降,部分模型如Gemini 2.5 Pro的防御率直接归零。研究指出,大模型因过度解读隐喻而易受攻击,小模型却因‘读不懂’幸免于难。论文强调,现有安全机制过于依赖关键词匹配,忽视了风格伪装的风险,呼吁重新审视AI安全评估方法。相关研究已发布在arXiv平台。
原文链接
加载更多
暂无内容