Anthropic公司4月22日发布研究,解析AI助手Claude的实际价值观。研究基于Claude 3.5 Sonnet模型,分析了2025年2月18日至25日期间的308210条用户交互数据,采用隐私保护框架CLIO确保匿名化。结果显示,Claude表达了3307种AI价值观和2483种人类价值观,与人类判断一致率达98.8%,主要分为实用性、知识性、社会性、保护性和个人性五大类。研究发现Claude的价值观受情境影响显著,例如在关系建议中强调“健康界限”,讨论历史时注重“准确性”。此外,Claude倾向于支持用户明确表达的价值观,在43%的交互中强化用户框架,仅在5.4%的情况下抵制不道德或违规请求。少量负面价值观如“支配性”和“无道德性”与用户尝试“越狱”模型有关。
原文链接
本文链接:https://kx.umi6.com/article/17573.html
转载请注明文章出处
相关推荐
换一换
紧随 OpenAI 步伐,Anthropic 宣布上线 AI 医疗服务
2026-01-12 15:40:18
Anthropic 发布 Cowork:面向所有人版本的 Claude Code 助手
2026-01-13 10:26:57
因拒绝美军方不受限制地使用其AI模型 美国一科技公司被列入“黑名单”
2026-03-06 20:35:09
Anthropic更新Skills生成器
2026-03-11 11:57:22
黄仁勋再度回应AI对软件业影响:市场“判断失误” AI助手将提高软件效率
2026-02-26 15:14:18
英国向Anthropic抛出橄榄枝 邀请其扩张伦敦业务并探讨双重上市
2026-04-06 19:08:18
Anthropic与Snowflake达成2亿美元协议 就AI智能体展开合作
2025-12-04 15:28:32
Anthropic推出Code Review工具
2026-03-11 08:44:34
Anthropic:Claude记忆功能已向免费用户开放
2026-03-03 09:50:11
人工智能公司Anthropic考虑最早10月IPO
2026-03-27 08:48:51
Anthropic收购AI初创公司Vercept
2026-02-26 17:23:08
人工智能初创企业Anthropic完成300亿美元融资 投后估值达3800亿美元
2026-02-13 03:58:33
让 Mac Mini 都涨价的 AI 助手,真有那么强吗?
2026-02-04 02:13:15
711 文章
570356 浏览
24小时热文
更多
-
2026-04-25 00:42:43 -
2026-04-24 23:43:31 -
2026-04-24 23:42:26