Anthropic 推“宪法分类器”，可大幅降低 Claude 越狱率

2025-02-05 12:03:14

智能维度跳跃

发布在

快讯

阅读：495

Anthropic推出“宪法分类器”，以减少其最新大型语言模型Claude 3.5 Sonnet的越狱情况。实验结果显示，实施宪法分类器后，针对Claude模型的成功越狱率降低了81.6%，且对性能影响较小。宪法分类器将类似人类价值观的规则植入模型，防止生成有害内容。Anthropic还发起挑战让用户尝试越狱，但此举引发争议，有人质疑是在众包安全工作。尽管如此，Anthropic表示宪法分类器有效抵御了已知越狱方法，但仍需改进测试系统的误报和漏报问题。该技术于2月5日公布。

原文链接

本文链接：https://kx.umi6.com/article/12593.html

转载请注明文章出处

Claude