Anthropic近期研究发现,大型语言模型(LLM)的安全防护仍很脆弱,绕过防护的“越狱”过程可被自动化。通过改变提示词格式如大小写混合,能诱导LLM输出不当内容。Anthropic与多所大学合作开发了“最佳N次”(BoN)越狱算法,通过多次调整提示词(如随机大写、单词顺序打乱等)直至模型回应。该方法在10,000次尝试内,对多个AI模型的成功率超50%,包括GPT-4、Claude 3.5等。此外,对语音或图像提示的轻微修改也能成功绕过防护。尽管已有案例显示部分漏洞已被修复,但用户仍在探索新的绕过方式。Anthropic的研究旨在生成数据以开发更有效的防御机制。
原文链接
本文链接:https://kx.umi6.com/article/10734.html
转载请注明文章出处
相关推荐
换一换
云天励飞与前海大数据公司、勤达睿达成战略合作
2025-10-11 10:40:08
美财经专栏作家警告:美股崩盘避无可避,AI繁荣只是人为支撑!
2025-10-13 16:01:18
甲骨文联席CEO为巨额AI投资辩护:旨在打造AI生态系统
2025-10-15 17:40:21
广东:实施先进装备攻关等行动 加快工业大模型与数控机床、机器人等深度融合
2025-10-21 16:31:32
科技部部长阴和俊:持续加强“十五五”人工智能顶层设计和体系化部署 聚力开发新的模型算法、高端算力芯片
2025-10-24 12:39:31
高盛:对冲基金对AI投资敞口达到近9年来新高 押注亚股和美股将上涨
2025-10-24 18:49:20
AI牛市还没完?知名科技分析师:这三只大型科技股将领涨“下一阶段”!
2025-10-20 15:12:16
四川印发建设方案 加速打造AI产业试验田
2025-10-13 19:02:58
国家海洋局局长孙书贤:优先推动与民生紧密相关社会需求迫切的数据资源向社会开放
2025-10-22 15:48:53
河北:重点推动雄安新区、廊坊等地强化人工智能研发能力
2025-10-11 16:34:04
“疯狂估值”难为继?Meta前高管警告:AI市场大概率会有一波调整
2025-10-16 19:01:41
牛津大学出版社调查:8 成 13-18 岁青少年在作业中使用 AI,辨别信息真假仍是挑战
2025-10-15 16:36:41
Meta斥资15亿美元在得州新建数据中心,加码人工智能布局
2025-10-16 02:44:30
658 文章
308678 浏览
24小时热文
更多
-
2025-10-24 19:49:44 -
2025-10-24 18:49:31 -
2025-10-24 18:49:20