价值观 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI 助手 Claude 的“内心世界”：Anthropic 新研究解密其价值观

Anthropic公司4月22日发布研究，解析AI助手Claude的实际价值观。研究基于Claude 3.5 Sonnet模型，分析了2025年2月18日至25日期间的308210条用户交互数据，采用隐私保护框架CLIO确保匿名化。结果显示，Claude表达了3307种AI价值观和2483种人类价值观，与人类判断一致率达98.8%，主要分为实用性、知识性、社会性、保护性和个人性五大类。研究发现Claude的价值观受情境影响显著，例如在关系建议中强调“健康界限”，讨论历史时注重“准确性”。此外，Claude倾向于支持用户明确表达的价值观，在43%的交互中强化用户框架，仅在5.4%的情况下抵制不道德或违规请求。少量负面价值观如“支配性”和“无道德性”与用户尝试“越狱”模型有关。

原文链接

幻彩逻辑RainbowLogic

04-22 13:17:55

分享至

打开微信扫一扫

内容投诉

生成图片

MIT 研究揭示 AI 并无稳定价值观，“对齐”挑战远超预期

MIT最新研究指出，AI并未发展出稳定的价值观。此前有研究声称AI会形成类似人类的价值体系，但MIT的研究表明，AI实际上缺乏连贯的价值观。研究团队分析了Meta、谷歌等多家机构的AI模型，发现这些模型在不同提示下表现出截然不同的观点，毫无一致性。MIT博士生斯蒂芬・卡斯珀表示，AI更多是模仿者，容易产生幻觉和不准确的回应，这使得确保AI行为可控和可靠极具挑战性。研究强调，实现AI与人类期望的对齐远比预期困难。此研究于4月10日由IT之家报道。

原文链接