1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:大模型越狱攻击新基准与评估体系

香港科技大学(广州)USAIL研究团队提出了一套新的大语言模型(LLM)越狱攻击基准与评估体系——JailTrackBench,全面分析了影响大模型安全性的关键因素。研究揭示了模型大小、安全对齐情况、系统提示和模板类型等因素对越狱攻击防御能力的影响。

JailTrackBench通过实验展示了,虽然较大模型可能更强大,但并不一定更具防御力。此外,模型的安全能力会因后续微调而降低,使用安全提示的系统消息能显著增强模型的安全性,而默认提示类型的模型比零样本提示的模型更安全。

研究还考察了攻击者能力、对抗性后缀长度、攻击者预算和攻击意图对越狱攻击成功率的影响。结果显示,更强的攻击者模型、较长的对抗性后缀和更大的攻击预算通常会导致更高的攻击成功率,而不同攻击意图对成功率也有显著影响。

此外,USAIL团队提出了JAILJUDGE评估框架,用于系统化评估模型的脆弱性。JAILJUDGE采用多Agent协作模式,确保评估过程的明确性和可解释性,并开发了JAILJUDGE Guard模型,提供高效且成本较低的越狱评估。实验表明,JailBoost工具将攻击成功率提高了约29.24%,而GuardShield将防御后的攻击成功率从40.46%降至0.15%。

未来,团队计划扩展JAILJUDGE的功能,应用于医疗、金融等关键行业,并探索多模态数据的越狱评估。

原文链接
本文链接:https://kx.umi6.com/article/8152.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Gartner 预测:市场冷静后,2027 年底超 40% 智能体(代理)AI 项目将被取消
2025-06-26 15:24:13
国内首家人工智能标准化研究机构,北京人工智能标准化研究院揭牌成立
2024-08-26 09:41:06
AI逼近,张一鸣比马云更危险
2024-05-23 18:10:42
24小时热文
更多
扫一扫体验小程序