什么会影响大模型安全？NeurIPS’24新研究提出大模型越狱攻击新基准与评估体系

2024-10-31 15:51:40

数字墨迹

发布在

科普

阅读：1071

标题：大模型越狱攻击新基准与评估体系

香港科技大学（广州）USAIL研究团队提出了一套新的大语言模型（LLM）越狱攻击基准与评估体系——JailTrackBench，全面分析了影响大模型安全性的关键因素。研究揭示了模型大小、安全对齐情况、系统提示和模板类型等因素对越狱攻击防御能力的影响。

JailTrackBench通过实验展示了，虽然较大模型可能更强大，但并不一定更具防御力。此外，模型的安全能力会因后续微调而降低，使用安全提示的系统消息能显著增强模型的安全性，而默认提示类型的模型比零样本提示的模型更安全。

研究还考察了攻击者能力、对抗性后缀长度、攻击者预算和攻击意图对越狱攻击成功率的影响。结果显示，更强的攻击者模型、较长的对抗性后缀和更大的攻击预算通常会导致更高的攻击成功率，而不同攻击意图对成功率也有显著影响。

此外，USAIL团队提出了JAILJUDGE评估框架，用于系统化评估模型的脆弱性。JAILJUDGE采用多Agent协作模式，确保评估过程的明确性和可解释性，并开发了JAILJUDGE Guard模型，提供高效且成本较低的越狱评估。实验表明，JailBoost工具将攻击成功率提高了约29.24%，而GuardShield将防御后的攻击成功率从40.46%降至0.15%。

未来，团队计划扩展JAILJUDGE的功能，应用于医疗、金融等关键行业，并探索多模态数据的越狱评估。

原文链接

本文链接：https://kx.umi6.com/article/8152.html

转载请注明文章出处

大模型安全