1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Anthropic推出“宪法分类器”,以减少其最新大型语言模型Claude 3.5 Sonnet的越狱情况。实验结果显示,实施宪法分类器后,针对Claude模型的成功越狱率降低了81.6%,且对性能影响较小。宪法分类器将类似人类价值观的规则植入模型,防止生成有害内容。Anthropic还发起挑战让用户尝试越狱,但此举引发争议,有人质疑是在众包安全工作。尽管如此,Anthropic表示宪法分类器有效抵御了已知越狱方法,但仍需改进测试系统的误报和漏报问题。该技术于2月5日公布。

原文链接
本文链接:https://kx.umi6.com/article/12593.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Claude手搓3D建筑编辑器火爆GitHub!数万年费的专业软件瑟瑟发抖
2026-03-30 01:18:06
美国网约车巨头 Lyft 同 Anthropic 达成合作:Claude 将为百万司机提供服务
2025-02-10 12:08:58
10 万次 Claude 真实对话洞察,AI 平均可缩短工作任务时间约 80%
2025-11-26 12:42:50
Claude 用户注意:聊天记录将被用于 AI 训练,默认同意
2025-08-29 09:37:27
亚马逊 2 月 26 日发布新一代 Alexa 生成式 AI 服务,使用 Claude 模型
2025-02-06 07:22:32
Claude 3.7 Sonnet发布:别提什么AGI,我Anthropic要赚企业客户的钱
2025-02-25 12:55:22
Claude断供OpenAI,AI编程竞争再升级
2025-08-05 08:13:36
Claude竟藏着3307种「人格」?深扒70万次对话,这个AI会看人下菜碟
2025-05-05 09:40:29
OpenClaw逼出Claude最强反击!GUI操控电脑和真人无差别,网友:这得花多少token?
2026-03-24 10:37:48
OpenAI头号叛徒,竟然是自学的AI?
2025-08-22 16:48:45
Anthropic CEO:AI 可能在两到三年内超越人类智能
2025-01-24 21:48:01
Claude一个插件吓哭华尔街,软件公司集体暴跌,2万亿元一日蒸发
2026-02-05 20:07:14
OpenAI离职到估值千亿美元,Anthropic4年时间引硅谷巨头疯狂押注
2025-08-01 08:54:00
24小时热文
更多
扫一扫体验小程序