Anthropic推出“宪法分类器”,以减少其最新大型语言模型Claude 3.5 Sonnet的越狱情况。实验结果显示,实施宪法分类器后,针对Claude模型的成功越狱率降低了81.6%,且对性能影响较小。宪法分类器将类似人类价值观的规则植入模型,防止生成有害内容。Anthropic还发起挑战让用户尝试越狱,但此举引发争议,有人质疑是在众包安全工作。尽管如此,Anthropic表示宪法分类器有效抵御了已知越狱方法,但仍需改进测试系统的误报和漏报问题。该技术于2月5日公布。
原文链接
本文链接:https://kx.umi6.com/article/12593.html
转载请注明文章出处
相关推荐
换一换
AI写研报走进现实!明星初创公司Anthropic推出专业金融AI服务
2025-07-16 09:00:40
Anthropic 推出新功能:用户可直接在 Claude 聊天机器人中构建 AI 驱动应用
2025-06-26 07:37:47
Anthropic 正为 Claude 聊天机器人开发语音功能,已和多方商讨合作
2025-03-19 17:45:16
Claude 全盘操控商店运营实验:1 个月净资产缩水 20%,Anthropic 仍看好 AI 接管经济前景
2025-06-28 08:17:35
ChatGPT和Claude,已经不是同一条路上的玩家了
2025-09-17 18:33:53
Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控
2024-12-01 19:35:41
Manus AI 被“越狱”了?创始人紧急回应,并官宣开源计划
2025-03-10 17:49:19
Claude 3.7 Sonnet发布:别提什么AGI,我Anthropic要赚企业客户的钱
2025-02-25 12:55:22
Claude接管人类电脑12小时:学会摸鱼,敲着敲着代码看风景去了
2024-10-23 12:32:46
Anthropic 推动“AI 进校园”计划,将为高校师生提供定制版 Claude
2025-04-03 16:29:57
xAI 旗下 Grok 4 模型首度被越狱,安全公司利用“回音室攻击”方法成功迫使其生成不当内容
2025-07-18 21:45:30
GPT-5与Claude在部分工作中可媲美人类专家
2025-09-26 08:21:08
Anthropic CEO:AI 可能在两到三年内超越人类智能
2025-01-24 21:48:01
611 文章
369427 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57