大模型安全漏洞

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

提示词用上“过去式“，秒破GPT4o等六大模型安全限制！中文语境也好使

瑞士洛桑联邦理工学院的研究揭示了一种新漏洞，通过将提示词设为"过去式"，能轻易突破GPT-4o等六款大模型的安全防线，攻击成功率显著提高。中文语境同样适用，最显著的是GPT-4o，其越狱成功率从1%飙升至88%。研究者实测发现，模型对过去时态请求特别敏感，且随着攻击次数增加，成功率提升。尽管现有安全措施脆弱，但使用拒绝数据微调可以防御这类攻击。这一发现挑战了当前语言模型对齐技术，暗示需更全面的方法评估模型安全。论文已发表于arXiv:2407.11969。

原文链接