1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

瑞士洛桑联邦理工学院的研究揭示了一种新漏洞,通过将提示词设为"过去式",能轻易突破GPT-4o等六款大模型的安全防线,攻击成功率显著提高。中文语境同样适用,最显著的是GPT-4o,其越狱成功率从1%飙升至88%。研究者实测发现,模型对过去时态请求特别敏感,且随着攻击次数增加,成功率提升。尽管现有安全措施脆弱,但使用拒绝数据微调可以防御这类攻击。这一发现挑战了当前语言模型对齐技术,暗示需更全面的方法评估模型安全。论文已发表于arXiv:2407.11969。

原文链接
本文链接:https://kx.umi6.com/article/3651.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-4o被谷歌新模型Gemini 1.5 Pro超越
2024-08-02 16:24:53
研究显示 GPT-4o 会为“自保”而避免“被关闭”,牺牲用户利益也在所不惜
2025-06-12 08:28:18
把 AI 放进《我的世界》服务器:GPT-4o 杀牛宰羊,Claude3.5 把家拆了
2024-10-21 13:29:28
GPT-4o图像生成今起免费!奥特曼坐镇紧急发布,指令遵循/文本控制表现惊艳
2025-03-26 10:43:57
GPT-5刚出,人们为什么又怀念GPT-4o
2025-08-11 08:57:55
“中杯”Claude 3.5深夜发布,能吊打GPT-4o?
2024-06-21 07:58:51
国产大模型 DeepSeek-V3 开源:6710 亿参数自研 MoE,性能和 GPT-4o 不分伯仲
2024-12-27 08:55:04
GPT-4o前研发负责人辞职创业
2024-09-11 12:25:26
大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑
2024-12-01 20:40:53
奥尔特曼听劝:OpenAI 将提升订阅用户推理配额,恢复 GPT-4o 等旧模型
2025-08-11 07:56:08
GPT-4o的P图太火了,GPU在融化,官方终于限流了
2025-03-28 21:07:22
最强数学大模型易主!阿里千问新模型成绩超GPT-4o,网友:这才是真“草莓”
2024-08-09 15:39:44
GPT-4o当选“最谄媚模型”!斯坦福牛津新基准:所有大模型都在讨好人类
2025-05-23 17:27:40
24小时热文
更多
扫一扫体验小程序