综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Anthropic公司4月22日发布研究,解析AI助手Claude的实际价值观。研究基于Claude 3.5 Sonnet模型,分析了2025年2月18日至25日期间的308210条用户交互数据,采用隐私保护框架CLIO确保匿名化。结果显示,Claude表达了3307种AI价值观和2483种人类价值观,与人类判断一致率达98.8%,主要分为实用性、知识性、社会性、保护性和个人性五大类。研究发现Claude的价值观受情境影响显著,例如在关系建议中强调“健康界限”,讨论历史时注重“准确性”。此外,Claude倾向于支持用户明确表达的价值观,在43%的交互中强化用户框架,仅在5.4%的情况下抵制不道德或违规请求。少量负面价值观如“支配性”和“无道德性”与用户尝试“越狱”模型有关。
原文链接
MIT最新研究指出,AI并未发展出稳定的价值观。此前有研究声称AI会形成类似人类的价值体系,但MIT的研究表明,AI实际上缺乏连贯的价值观。研究团队分析了Meta、谷歌等多家机构的AI模型,发现这些模型在不同提示下表现出截然不同的观点,毫无一致性。MIT博士生斯蒂芬・卡斯珀表示,AI更多是模仿者,容易产生幻觉和不准确的回应,这使得确保AI行为可控和可靠极具挑战性。研究强调,实现AI与人类期望的对齐远比预期困难。此研究于4月10日由IT之家报道。
原文链接
加载更多
暂无内容