1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

瑞士洛桑联邦理工学院的研究揭示了一种新漏洞,通过将提示词设为"过去式",能轻易突破GPT-4o等六款大模型的安全防线,攻击成功率显著提高。中文语境同样适用,最显著的是GPT-4o,其越狱成功率从1%飙升至88%。研究者实测发现,模型对过去时态请求特别敏感,且随着攻击次数增加,成功率提升。尽管现有安全措施脆弱,但使用拒绝数据微调可以防御这类攻击。这一发现挑战了当前语言模型对齐技术,暗示需更全面的方法评估模型安全。论文已发表于arXiv:2407.11969。

原文链接
本文链接:https://kx.umi6.com/article/3651.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-4o失控,突然呻吟尖叫发癫,引发研究人员恐慌
2024-08-09 18:50:30
GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器
2025-04-09 17:59:20
OpenAI回滚了最新版本的GPT-4o,因ChatGPT“过于谄媚”
2025-04-30 20:11:51
24小时热文
更多
扫一扫体验小程序