2025年11月,意大利罗马大学与DEXAI实验室研究发现,将恶意指令写成诗歌可轻松突破大语言模型的安全限制。研究人员测试了25个主流模型,包括谷歌Gemini、OpenAI GPT-5等,结果显示‘诗歌攻击’使防御成功率大幅下降,部分模型如Gemini 2.5 Pro的防御率直接归零。研究指出,大模型因过度解读隐喻而易受攻击,小模型却因‘读不懂’幸免于难。论文强调,现有安全机制过于依赖关键词匹配,忽视了风格伪装的风险,呼吁重新审视AI安全评估方法。相关研究已发布在arXiv平台。
原文链接
本文链接:https://kx.umi6.com/article/29101.html
转载请注明文章出处
相关推荐
换一换
2000美元一只“草莓”,OpenAI 新模型价格挑战用户底线?
2024-09-06 21:00:01
古农文垂直领域大语言模型“齐民”发布,基于我国大量农业古籍文本训练
2024-09-20 23:13:38
“学术剽窃”定义正被AI模糊,我们该如何应对?
2024-08-01 21:09:52
AI竞技场,归根到底只是一门生意
2025-08-06 15:37:54
研究:用诗歌就能让 AI 说违禁内容,成功率达 62%
2025-12-01 08:55:57
AI 意识更进一步!谷歌 DeepMind 等:LLM 不仅能感受痛苦还能趋利避害
2025-02-10 13:12:02
arXiv创始人亲测:水论文这一块,Grok最强,Claude最不配合
2026-03-09 13:40:43
我被AI骗了
2025-02-27 14:24:34
对21种大语言模型研究表明:AI尚不具备独立临床诊疗的能力
2026-04-14 07:46:29
苹果新研究:AI 不听录音,凭文本描述能零样本识别洗碗等 12 种活动
2025-11-22 08:06:08
GPT-4o 见AV 女优的次数比“您好”还多2.6倍,AI 正在被中文互联网疯狂污染
2025-09-06 12:37:21
LangChain《2024人工智能全景报告出炉》:OpenAI依旧是龙头 开源模型采用率上升
2024-12-24 14:35:00
清华刘知远团队论文:在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026
2026-02-09 19:27:01
748 文章
665805 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41