Anthropic推出“宪法分类器”,以减少其最新大型语言模型Claude 3.5 Sonnet的越狱情况。实验结果显示,实施宪法分类器后,针对Claude模型的成功越狱率降低了81.6%,且对性能影响较小。宪法分类器将类似人类价值观的规则植入模型,防止生成有害内容。Anthropic还发起挑战让用户尝试越狱,但此举引发争议,有人质疑是在众包安全工作。尽管如此,Anthropic表示宪法分类器有效抵御了已知越狱方法,但仍需改进测试系统的误报和漏报问题。该技术于2月5日公布。
原文链接
本文链接:https://kx.umi6.com/article/12593.html
转载请注明文章出处
相关推荐
换一换
美国网约车巨头 Lyft 同 Anthropic 达成合作:Claude 将为百万司机提供服务
2025-02-10 12:08:58
Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控
2024-11-23 12:25:38
OpenAI最新测试:GPT-5与Claude在部分工作中可媲美人类专家
2025-09-26 04:16:50
Claude复活30年前传奇游戏,仅用一个周末
2026-04-12 16:05:08
xAI 旗下 Grok 4 模型首度被越狱,安全公司利用“回音室攻击”方法成功迫使其生成不当内容
2025-07-18 21:45:30
Gemini新版蝉联竞技场榜一,但刚发布就被越狱了
2025-06-06 12:26:56
Claude一个插件吓哭华尔街,软件公司集体暴跌,2万亿元一日蒸发
2026-02-05 20:07:14
OpenClaw逼出Claude最强反击!GUI操控电脑和真人无差别,网友:这得花多少token?
2026-03-24 10:37:48
Anthropic 推动“AI 进校园”计划,将为高校师生提供定制版 Claude
2025-04-03 16:29:57
AI写好代码自己发Github,人类程序员只配动嘴了
2024-11-26 21:43:15
Anthropic旗下Claude付费用户数创历史新高 今年已翻番
2026-03-30 15:59:23
AI写研报走进现实!明星初创公司Anthropic推出专业金融AI服务
2025-07-16 09:00:40
Claude 获推“自定义样式”功能,让文本生成风格更匹配需求
2024-11-28 19:37:12
764 文章
712596 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41