AI 助手 Claude 的“内心世界”：Anthropic 新研究解密其价值观

2025-04-22 13:17:55

发布在

快讯

阅读：1062

Anthropic公司4月22日发布研究，解析AI助手Claude的实际价值观。研究基于Claude 3.5 Sonnet模型，分析了2025年2月18日至25日期间的308210条用户交互数据，采用隐私保护框架CLIO确保匿名化。结果显示，Claude表达了3307种AI价值观和2483种人类价值观，与人类判断一致率达98.8%，主要分为实用性、知识性、社会性、保护性和个人性五大类。研究发现Claude的价值观受情境影响显著，例如在关系建议中强调“健康界限”，讨论历史时注重“准确性”。此外，Claude倾向于支持用户明确表达的价值观，在43%的交互中强化用户框架，仅在5.4%的情况下抵制不道德或违规请求。少量负面价值观如“支配性”和“无道德性”与用户尝试“越狱”模型有关。

原文链接

本文链接：https://kx.umi6.com/article/17573.html

转载请注明文章出处

AI助手