2025年11月,意大利罗马大学与DEXAI实验室研究发现,将恶意指令写成诗歌可轻松突破大语言模型的安全限制。研究人员测试了25个主流模型,包括谷歌Gemini、OpenAI GPT-5等,结果显示‘诗歌攻击’使防御成功率大幅下降,部分模型如Gemini 2.5 Pro的防御率直接归零。研究指出,大模型因过度解读隐喻而易受攻击,小模型却因‘读不懂’幸免于难。论文强调,现有安全机制过于依赖关键词匹配,忽视了风格伪装的风险,呼吁重新审视AI安全评估方法。相关研究已发布在arXiv平台。
原文链接
本文链接:https://kx.umi6.com/article/29101.html
转载请注明文章出处
相关推荐
换一换
上海AI Lab胡侠:KV Cache压缩之后,可让价格2万美金的GPU发挥出20万美金的价值 | GAIR 2025
2026-01-08 11:06:36
念首诗,就能让AI教你造核弹!Gemini 100%中招
2025-11-25 15:56:13
腾讯公布大语言模型训练专利 可提高模型准确性
2025-02-08 14:29:56
AI模型也能被“洗脑”!仅需250份文件就能控制ChatGPT回应
2025-10-19 22:55:33
意识智能体:大模型的下一个进化方向?:计算意识理论综述II
2025-09-07 19:49:04
LangChain《2024人工智能全景报告出炉》:OpenAI依旧是龙头 开源模型采用率上升
2024-12-24 14:35:00
研究揭示:大语言模型无法真正理解双关语
2025-11-24 18:08:37
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
2025-05-29 15:34:10
《自然》杂志研究:AI 追踪他人心理状态能力与人类相当或超越人类
2024-05-27 09:13:10
OpenAI 发布新模型 奥特曼:耐心时刻结束了
2024-09-16 01:58:25
小红书怎么一夜成为全世界网友都爱的翻译软件?
2025-01-20 21:24:11
AI 意识更进一步!谷歌 DeepMind 等:LLM 不仅能感受痛苦还能趋利避害
2025-02-10 13:12:02
苹果创新“清单法”:用 AI 大模型当“老师”,教小模型更精准执行复杂指令
2025-08-26 07:38:55
683 文章
481282 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18