Anthropic公司4月22日发布研究,解析AI助手Claude的实际价值观。研究基于Claude 3.5 Sonnet模型,分析了2025年2月18日至25日期间的308210条用户交互数据,采用隐私保护框架CLIO确保匿名化。结果显示,Claude表达了3307种AI价值观和2483种人类价值观,与人类判断一致率达98.8%,主要分为实用性、知识性、社会性、保护性和个人性五大类。研究发现Claude的价值观受情境影响显著,例如在关系建议中强调“健康界限”,讨论历史时注重“准确性”。此外,Claude倾向于支持用户明确表达的价值观,在43%的交互中强化用户框架,仅在5.4%的情况下抵制不道德或违规请求。少量负面价值观如“支配性”和“无道德性”与用户尝试“越狱”模型有关。
原文链接
本文链接:https://kx.umi6.com/article/17573.html
转载请注明文章出处
相关推荐
换一换
Anthropic据悉试图挽回美军AI合作
2026-03-05 21:59:06
Anthropic主动承诺承担新增电费 以换取数据中心快速扩张权
2026-02-12 19:45:56
因拒绝美军方不受限制地使用其AI模型 美国一科技公司被列入“黑名单”
2026-03-06 20:35:09
德银:Anthropic不会是软件行业的“终结者”
2026-02-26 15:15:30
黑石参投Anthropic融资轮 持股规模升至10亿美元
2026-02-11 04:57:29
阶跃星辰加入“小龙虾”战局 开放5万个免费部署名额
2026-03-12 16:58:39
美国国防部官员称目前未与Anthropic进行任何实质性谈判
2026-03-06 11:57:53
独家解读|Anthropic 估值再翻倍逼近万亿,登顶全球 AI 第一的“秘密”是什么?
2026-05-29 17:21:38
OpenAI计划年底前将员工人数增加近一倍至8000人
2026-03-21 20:42:38
Anthropic收购AI初创公司Vercept
2026-02-26 17:23:08
人类药丸?Anthropic为什么要搞AI不扩散条约
2026-06-07 13:33:45
Anthropic正考虑以超9000亿美元估值开启新一轮融资
2026-04-30 06:00:30
Anthropic重磅研究:AI竟能被人类激怒暴走 绝望时还会勒索人类
2026-04-08 18:05:31
742 文章
666885 浏览
24小时热文
更多
-
2026-06-09 11:14:27 -
2026-06-09 11:12:33 -
2026-06-09 10:10:47