标题:大模型越狱攻击新基准与评估体系
香港科技大学(广州)USAIL研究团队提出了一套新的大语言模型(LLM)越狱攻击基准与评估体系——JailTrackBench,全面分析了影响大模型安全性的关键因素。研究揭示了模型大小、安全对齐情况、系统提示和模板类型等因素对越狱攻击防御能力的影响。
JailTrackBench通过实验展示了,虽然较大模型可能更强大,但并不一定更具防御力。此外,模型的安全能力会因后续微调而降低,使用安全提示的系统消息能显著增强模型的安全性,而默认提示类型的模型比零样本提示的模型更安全。
研究还考察了攻击者能力、对抗性后缀长度、攻击者预算和攻击意图对越狱攻击成功率的影响。结果显示,更强的攻击者模型、较长的对抗性后缀和更大的攻击预算通常会导致更高的攻击成功率,而不同攻击意图对成功率也有显著影响。
此外,USAIL团队提出了JAILJUDGE评估框架,用于系统化评估模型的脆弱性。JAILJUDGE采用多Agent协作模式,确保评估过程的明确性和可解释性,并开发了JAILJUDGE Guard模型,提供高效且成本较低的越狱评估。实验表明,JailBoost工具将攻击成功率提高了约29.24%,而GuardShield将防御后的攻击成功率从40.46%降至0.15%。
未来,团队计划扩展JAILJUDGE的功能,应用于医疗、金融等关键行业,并探索多模态数据的越狱评估。
原文链接
本文链接:https://kx.umi6.com/article/8152.html
转载请注明文章出处
相关推荐
换一换
大模型容易忽视的安全,火山方舟早就「刻」进了基因
2024-11-15 17:38:02
GPT-4o遭越狱后指挥机器人做危险动作!全球首个具身智能体安全评测基准来了,大模型集体翻车
2025-08-01 15:02:56
红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”
2025-05-26 17:32:29
阿里云神秘团队曝光:AI时代的新蓝军
2025-10-17 19:24:31
人工智能立法已势在必行!张天任、刘永好、齐向东三位代表委员共谈AI | 两会专访
2025-03-05 11:59:04
Claude 90分钟挖穿20年漏洞!5w星“安全”系统跌下神坛
2026-03-30 01:20:45
牛津、斯坦福大学新研究:能“思考”的 AI 推理模型更易受到越狱攻击
2025-11-08 21:58:37
造谣小米员工破坏展车、AI伪造事故视频!两名网络用户公开道歉
2026-06-08 18:42:21
亚洲首富只当了三天 孙正义是时代弄潮儿还是追泡沫的人?
2026-06-04 17:16:03
行业景气度走高!SK暂缓出让晶圆厂商SK Siltron
2026-06-04 20:22:35
GitHub 被AI打穿了
2026-06-05 19:15:06
扣子3.0实测:手机就能远程遥控你电脑里的Agent
2026-06-04 09:58:01
96GB显存运行230B大模型!七彩虹灵创K16笔记本评测:160W性能释放 AMD锐龙AI Max+ 395加持全能移动AI工作站
2026-06-06 15:54:30
728 文章
648655 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41