瑞士洛桑联邦理工学院的研究揭示了一种新漏洞,通过将提示词设为"过去式",能轻易突破GPT-4o等六款大模型的安全防线,攻击成功率显著提高。中文语境同样适用,最显著的是GPT-4o,其越狱成功率从1%飙升至88%。研究者实测发现,模型对过去时态请求特别敏感,且随着攻击次数增加,成功率提升。尽管现有安全措施脆弱,但使用拒绝数据微调可以防御这类攻击。这一发现挑战了当前语言模型对齐技术,暗示需更全面的方法评估模型安全。论文已发表于arXiv:2407.11969。
原文链接
本文链接:https://kx.umi6.com/article/3651.html
转载请注明文章出处
相关推荐
换一换
首次引入GPT-4o!图像自动评估新基准来啦
2024-06-28 00:32:37
零一万物新旗舰模型 Yi-Lightning 发布:LMSYS 测试国产首次超越 GPT-4o,中国第一、世界第六
2024-10-17 09:59:42
过于追求人性化:奥尔特曼称 GPT-4o 出现“谄媚烦人”倾向,OpenAI 计划在一周内修复
2025-04-28 09:46:16
GPT-4o失控,突然呻吟尖叫发癫,引发研究人员恐慌
2024-08-09 18:50:30
研究人员绕过 GPT-4o 模型安全护栏,利用“十六进制字符串”成功令其编写漏洞攻击程序
2024-11-05 14:43:32
王兴披露美团 AI 业务进展:基础大模型能力接近 GPT-4o 水平,6 月将推业务决策助手
2025-05-26 21:50:33
全球首款集成 GPT-4o 的智能眼镜来了,这会是下一个爆款吗?
2024-07-03 09:39:46
阿里通义千问开源 Qwen2.5-Coder 全系列模型,号称代码能力追平 GPT-4o
2024-11-12 17:09:55
GPT-5刚出,人们为什么又怀念GPT-4o
2025-08-11 08:57:55
OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到
2025-05-03 12:30:15
一手体验:最新发布的GPT-4o多模态生图,就是当今的王
2025-03-26 18:05:08
GPT-4o怎么抢了Midjourney的饭碗
2025-04-11 11:41:06
奥尔特曼:GPT-4o文生图功能总生成量将突破10亿 大多数改变世界的公司最初都被视为“套壳”
2025-04-07 17:11:17
513 文章
247200 浏览
24小时热文
更多
-
2025-10-24 19:49:44 -
2025-10-24 18:49:31 -
2025-10-24 18:49:20