Anthropic推出“宪法分类器”,以减少其最新大型语言模型Claude 3.5 Sonnet的越狱情况。实验结果显示,实施宪法分类器后,针对Claude模型的成功越狱率降低了81.6%,且对性能影响较小。宪法分类器将类似人类价值观的规则植入模型,防止生成有害内容。Anthropic还发起挑战让用户尝试越狱,但此举引发争议,有人质疑是在众包安全工作。尽管如此,Anthropic表示宪法分类器有效抵御了已知越狱方法,但仍需改进测试系统的误报和漏报问题。该技术于2月5日公布。
原文链接
本文链接:https://kx.umi6.com/article/12593.html
转载请注明文章出处
相关推荐
.png)
换一换
Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控
2024-11-23 12:25:38
Claude编程支持一键共享,第一批网友已经开始晒作品了
2024-07-10 16:00:00
Manus AI 被“越狱”了?创始人紧急回应,并官宣开源计划
2025-03-10 17:49:19
OpenAI头号叛徒,竟然是自学的AI?
2025-08-22 16:48:45
Anthropic CEO:AI 可能在两到三年内超越人类智能
2025-01-24 21:48:01
OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低
2025-08-28 14:23:27
Anthropic对苹果Siri发起致命一击
2025-05-29 15:40:29
Anthropic 正为 Claude 聊天机器人开发语音功能,已和多方商讨合作
2025-03-19 17:45:16
OpenAI 投的代码工具 Cursor“叛变”了:默认使用 Claude,程序员叫好
2024-08-16 07:01:25
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程
2025-06-16 15:09:20
亚马逊 2 月 26 日发布新一代 Alexa 生成式 AI 服务,使用 Claude 模型
2025-02-06 07:22:32
Gemini新版蝉联竞技场榜一,但刚发布就被越狱了
2025-06-06 12:26:56
新版Claude曝光:“极限推理”成最大亮点
2025-05-16 13:41:49
489 文章
170529 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08