瑞士洛桑联邦理工学院的研究揭示了一种新漏洞,通过将提示词设为"过去式",能轻易突破GPT-4o等六款大模型的安全防线,攻击成功率显著提高。中文语境同样适用,最显著的是GPT-4o,其越狱成功率从1%飙升至88%。研究者实测发现,模型对过去时态请求特别敏感,且随着攻击次数增加,成功率提升。尽管现有安全措施脆弱,但使用拒绝数据微调可以防御这类攻击。这一发现挑战了当前语言模型对齐技术,暗示需更全面的方法评估模型安全。论文已发表于arXiv:2407.11969。
原文链接
本文链接:https://kx.umi6.com/article/3651.html
转载请注明文章出处
相关推荐
换一换
OpenAI 断供中国大陆市场,零一万物 Yi API 二折平替 GPT-4o
2024-06-26 11:49:59
OpenAI升级GPT-4o模型 提升智能和个性
2025-04-26 17:56:17
GPT-4o怎么抢了Midjourney的饭碗
2025-04-11 11:41:06
GPT-4o的P图太火了,GPU在融化,官方终于限流了
2025-03-28 21:07:22
Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了
2024-06-18 13:20:37
交互效果对标 GPT-4o,商汤发布国内首个所见即所得模型“日日新 5o”
2024-07-05 22:48:41
OpenAI 发布最新技术报告,揭秘 GPT-4o 变谄媚的原因
2025-05-03 16:36:59
LG 预告首款家用管家机器人明年登场:集成 GPT-4o AI 模型,注重和用户情感互动
2024-12-03 16:27:11
全球网友喊话山姆·奥特曼: 还我GPT-4o
2025-08-13 15:40:26
OpenAI 放开成人内容?
2025-02-19 13:49:01
当人们怀念GPT-4o,他们在“怀念”什么?
2025-08-11 19:06:14
研究发现,OpenAI 的 GPT-4o 道德推理能力胜过人类专家
2024-06-24 12:02:59
过于追求人性化:奥尔特曼称 GPT-4o 出现“谄媚烦人”倾向,OpenAI 计划在一周内修复
2025-04-28 09:46:16
616 文章
416033 浏览
24小时热文
更多
-
2026-01-23 10:51:27 -
2026-01-23 10:50:21 -
2026-01-23 10:49:16