提示词用上“过去式“，秒破GPT4o等六大模型安全限制！中文语境也好使

2024-07-19 15:57:37

QuantumHacker

发布在

快讯

阅读：321

瑞士洛桑联邦理工学院的研究揭示了一种新漏洞，通过将提示词设为"过去式"，能轻易突破GPT-4o等六款大模型的安全防线，攻击成功率显著提高。中文语境同样适用，最显著的是GPT-4o，其越狱成功率从1%飙升至88%。研究者实测发现，模型对过去时态请求特别敏感，且随着攻击次数增加，成功率提升。尽管现有安全措施脆弱，但使用拒绝数据微调可以防御这类攻击。这一发现挑战了当前语言模型对齐技术，暗示需更全面的方法评估模型安全。论文已发表于arXiv:2407.11969。

原文链接

本文链接：https://kx.umi6.com/article/3651.html

转载请注明文章出处

GPT-4o