Anthropic近期研究发现,大型语言模型(LLM)的安全防护仍很脆弱,绕过防护的“越狱”过程可被自动化。通过改变提示词格式如大小写混合,能诱导LLM输出不当内容。Anthropic与多所大学合作开发了“最佳N次”(BoN)越狱算法,通过多次调整提示词(如随机大写、单词顺序打乱等)直至模型回应。该方法在10,000次尝试内,对多个AI模型的成功率超50%,包括GPT-4、Claude 3.5等。此外,对语音或图像提示的轻微修改也能成功绕过防护。尽管已有案例显示部分漏洞已被修复,但用户仍在探索新的绕过方式。Anthropic的研究旨在生成数据以开发更有效的防御机制。
原文链接
本文链接:https://kx.umi6.com/article/10734.html
转载请注明文章出处
相关推荐
换一换
国家数据局:人工智能进入训练与推理并重、应用驱动迭代的新阶段
2026-04-29 14:27:57
万字长谈丨同济工智院华先胜:工程智能,是 AI 的「成人礼」
2026-05-21 11:36:10
2025年我国词元调用量约21100万亿 呈现指数级增长
2026-04-29 11:17:41
特朗普任命美前司法部长邦迪加入白宫人工智能顾问委员会
2026-05-27 09:22:28
中方呼吁防止AI成为少数富国的游戏
2026-05-06 14:20:42
人口仅1.6万!加勒比小岛靠.ai域名躺赚 年入超5亿还将持续暴涨
2026-05-07 16:28:52
工信部启动人工智能科技伦理审查与服务先导计划 加快推动审查工作落地实施
2026-05-09 16:30:49
欧盟禁止AI生成深度伪造色情内容:绝不能用人工智能羞辱他人
2026-05-07 23:45:05
马化腾回应腾讯AI是否落后:现在感觉站上船但还坐不下去 希望船速能快一点
2026-05-13 18:57:33
美光警告:AI算力狂飙 内存短缺将延续至2026年后
2026-05-26 11:23:43
全球股市上涨 科技股迎来六周以来最佳涨势
2026-05-21 12:42:10
交通运输部:大力实施公路更新和数智化改造 深入实施“人工智能+交通运输”行动
2026-05-22 20:03:37
MiniMax关联公司增资至40亿 增幅300%
2026-05-11 11:05:57
845 文章
737930 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41