Anthropic推出“宪法分类器”,以减少其最新大型语言模型Claude 3.5 Sonnet的越狱情况。实验结果显示,实施宪法分类器后,针对Claude模型的成功越狱率降低了81.6%,且对性能影响较小。宪法分类器将类似人类价值观的规则植入模型,防止生成有害内容。Anthropic还发起挑战让用户尝试越狱,但此举引发争议,有人质疑是在众包安全工作。尽管如此,Anthropic表示宪法分类器有效抵御了已知越狱方法,但仍需改进测试系统的误报和漏报问题。该技术于2月5日公布。
原文链接
本文链接:https://kx.umi6.com/article/12593.html
转载请注明文章出处
相关推荐
换一换
Claude三巨头回应一切!Opus3.5仍可能发布,5小时视频10万人围观
2024-11-12 17:08:51
Anthropic 为 Claude 聊天机器人推出语音模式
2025-05-28 16:57:16
Anthropic推出专业金融AI服务
2025-07-16 09:02:55
Anthropic 推“宪法分类器”,可大幅降低 Claude 越狱率
2025-02-05 12:03:14
Gemini新版蝉联竞技场榜一,但刚发布就被越狱了
2025-06-06 12:26:56
谷歌被曝正使用 Anthropic 的 Claude 模型来改进其 Gemini AI
2024-12-25 09:58:28
Anthropic宣布Claude新增AI应用构建功能
2025-06-26 09:58:03
只要4.66MB,安卓版Claude今日起人人可下,AI应用版图已补全
2024-07-17 15:46:06
刚刚,Claude实现「永久记忆」!官方还没上线,大神已玩疯
2026-01-21 11:00:16
Claude接管人类电脑12小时:学会摸鱼,敲着敲着代码看风景去了
2024-10-23 12:32:46
Anthropic 新研究:打错字就能“越狱”GPT-4、Claude 等 AI 模型
2024-12-25 16:07:48
亚马逊 2 月 26 日发布新一代 Alexa 生成式 AI 服务,使用 Claude 模型
2025-02-06 07:22:32
Claude 全盘操控商店运营实验:1 个月净资产缩水 20%,Anthropic 仍看好 AI 接管经济前景
2025-06-28 08:17:35
666 文章
457887 浏览
24小时热文
更多
-
2026-01-23 19:11:03 -
2026-01-23 19:08:58 -
2026-01-23 18:11:40