Anthropic近期研究发现,大型语言模型(LLM)的安全防护仍很脆弱,绕过防护的“越狱”过程可被自动化。通过改变提示词格式如大小写混合,能诱导LLM输出不当内容。Anthropic与多所大学合作开发了“最佳N次”(BoN)越狱算法,通过多次调整提示词(如随机大写、单词顺序打乱等)直至模型回应。该方法在10,000次尝试内,对多个AI模型的成功率超50%,包括GPT-4、Claude 3.5等。此外,对语音或图像提示的轻微修改也能成功绕过防护。尽管已有案例显示部分漏洞已被修复,但用户仍在探索新的绕过方式。Anthropic的研究旨在生成数据以开发更有效的防御机制。
原文链接
本文链接:https://kx.umi6.com/article/10734.html
转载请注明文章出处
相关推荐
换一换
知名科技分析师:AI革命仍处“开端”,尤其看好这10只股票!
2025-11-27 10:27:39
布鲁姆斯伯里出版社与谷歌就人工智能学习和出版技术达成合作
2025-12-03 16:32:34
法国宣布将调配3亿欧元资助15个战略研究项目
2025-11-29 12:17:57
锚定新兴产业 多地谋划“十五五”发展路线图
2025-12-04 07:05:58
设立河南首支AI基金,领投众擎赋能产业生态
2025-12-08 15:33:26
北京今年 AI 产业规模有望超 4500 亿元
2025-11-29 17:27:21
AI争霸格局突变?五大“东风”将谷歌送上王座!
2025-11-26 11:41:07
智元机器人关联公司增资至9128.3万 增幅约10.5%
2025-12-02 12:12:26
经合组织维持今明两年全球经济增速预期
2025-12-02 19:38:32
浙江:抢抓人工智能发展浪潮,发挥数字经济、平台经济优势作用
2025-12-01 20:35:32
中文屋提出者逝世,曾当众“调戏”Hinton被记了半辈子
2025-11-30 13:11:40
完整议程|12.10-11第二十届中国IDC产业年度大典北京·首钢园启动
2025-12-01 16:16:11
公牛集团成立智能科技公司 含多项AI业务
2025-11-28 14:33:24
702 文章
402622 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57