Anthropic近期研究发现,大型语言模型(LLM)的安全防护仍很脆弱,绕过防护的“越狱”过程可被自动化。通过改变提示词格式如大小写混合,能诱导LLM输出不当内容。Anthropic与多所大学合作开发了“最佳N次”(BoN)越狱算法,通过多次调整提示词(如随机大写、单词顺序打乱等)直至模型回应。该方法在10,000次尝试内,对多个AI模型的成功率超50%,包括GPT-4、Claude 3.5等。此外,对语音或图像提示的轻微修改也能成功绕过防护。尽管已有案例显示部分漏洞已被修复,但用户仍在探索新的绕过方式。Anthropic的研究旨在生成数据以开发更有效的防御机制。
原文链接
本文链接:https://kx.umi6.com/article/10734.html
转载请注明文章出处
相关推荐
换一换
贝莱德投资者调查:尽管投资者看好人工智能前景 但将投资重点转向能源和基础设施供应商
2026-01-13 19:52:53
上海:适度超前布局建设新型信息基础设施 纵深推动“5G+工业互联网”
2026-01-23 10:48:11
杭州“十五五”规划建议:加快打造人工智能、视觉智能2个万亿级产业集群
2026-01-16 11:36:03
马斯克:人工智能部署的限制因素是电力供应
2026-01-23 00:20:44
中国进出口银行2025年投放科技贷款超7300亿元
2026-01-19 18:08:22
涉及航天航空、人工智能等领域 北京市丰台区冲刺万亿产业规模
2026-01-19 12:55:43
美防长称马斯克旗下 AI 聊天机器人 Grok 将接入五角大楼系统
2026-01-13 11:42:11
上交所对天普股份及有关责任人予以监管警示
2026-01-05 21:29:43
英伟达 CEO 黄仁勋:“上帝级 AI”还很遥远,但世界仍需向前发展
2026-01-12 22:58:36
工信部:加快培育一批工业数据、工业模型等领域的专业化服务商
2026-01-07 16:24:00
环球音乐拥抱 AI,将与英伟达合作“重塑”音乐发现和创作方式
2026-01-07 10:59:25
超过三分之二的投资管理机构将AI广泛应用于前台业务支持
2026-01-21 19:23:09
北京发布人工智能创新高地建设行动计划
2026-01-05 22:31:54
748 文章
482269 浏览
24小时热文
更多
-
2026-01-23 19:11:03 -
2026-01-23 19:08:58 -
2026-01-23 18:11:40