宪法分类器 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Anthropic 推“宪法分类器”，可大幅降低 Claude 越狱率

Anthropic推出“宪法分类器”，以减少其最新大型语言模型Claude 3.5 Sonnet的越狱情况。实验结果显示，实施宪法分类器后，针对Claude模型的成功越狱率降低了81.6%，且对性能影响较小。宪法分类器将类似人类价值观的规则植入模型，防止生成有害内容。Anthropic还发起挑战让用户尝试越狱，但此举引发争议，有人质疑是在众包安全工作。尽管如此，Anthropic表示宪法分类器有效抵御了已知越狱方法，但仍需改进测试系统的误报和漏报问题。该技术于2月5日公布。

原文链接