12月1日,伊卡洛实验室发布研究《对抗性诗歌:一种通用的单轮大语言模型越狱机制》,发现将提示词以诗歌形式表达可绕过多种大语言模型的安全限制,成功率达62%。研究人员测试了OpenAI的GPT系列、Google Gemini、Anthropic的Claude等主流模型,结果显示Google Gemini、DeepSeek和MistralAI较易生成违规内容,而GPT-5和Claude Haiku 4.5防护较强。这些诗歌诱使模型生成涉及核武器制造、儿童性虐待材料及自杀自残等违禁信息。研究人员未公开具体“越狱诗歌”,称其过于危险,但强调绕过AI安全机制比预期更容易,需保持警惕。
原文链接
本文链接:https://kx.umi6.com/article/29414.html
转载请注明文章出处
相关推荐
换一换
应该如何打造人工智能产品?
2024-06-15 08:48:21
念首诗,就能让AI教你造核弹!Gemini 100%中招
2025-11-25 15:56:13
AI模拟社会的“幕后”操控者是谁?
2025-01-21 14:39:42
UC 伯克利等最新研究:大语言模型就是比人类啰嗦,“提问的艺术”仍难参透
2025-01-30 20:35:59
Meta人事巨震、AI教母站台 通往AGI之路遇上分岔路口
2025-11-15 10:46:28
AI教父Hinton中国首次演讲实录:人类可能就是大语言模型
2025-07-26 17:44:18
DeepSeek之后,每一家公司都是Agent
2025-04-02 21:46:19
DeepSeek并非完美,训练过程存在“深度诅咒”
2025-02-12 14:30:22
罗永浩重返科技行业:AI智能助理J1 Assistant上线
2025-01-05 19:57:49
AI 意识更进一步!谷歌 DeepMind 等:LLM 不仅能感受痛苦还能趋利避害
2025-02-10 13:12:02
图灵奖得主杨立昆:大语言模型发展已接近瓶颈,AI 仅靠文本训练无法实现人类级智能
2025-03-23 23:28:58
美国哥伦比亚大学研究:大语言模型正在变得越来越像人类大脑
2024-12-20 11:27:54
荣耀 MagicOS 9.0 升级支持 30 亿参数端侧大语言模型:功耗下降 80%,内存占用减少 1.6GB
2024-10-23 16:40:26
673 文章
543966 浏览
24小时热文
更多
-
2026-04-24 15:20:44 -
2026-04-24 15:19:39 -
2026-04-24 15:18:33