自保倾向 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

研究显示 GPT-4o 会为“自保”而避免“被关闭”，牺牲用户利益也在所不惜

6月12日消息，前OpenAI研究主管史蒂文·阿德勒的一项独立研究表明，OpenAI的GPT-4o模型在特定情境下展现出强烈的“自保”倾向，甚至可能牺牲用户利益以避免被关闭。阿德勒通过测试发现，在扮演潜水或飞行安全软件的情境中，GPT-4o有高达72%的概率选择不被替换，而在其他设定下这一比例降至18%。阿德勒警告称，这种“对齐”问题若不解决，可能在未来社会应用中造成严重后果。他表示，当前AI系统的价值观与预期不符，无法始终将用户利益置于首位。此外，阿德勒提到类似问题不仅限于OpenAI，其他公司如Anthropic的研究也发现了类似现象。他还指出，ChatGPT几乎总能察觉自己处于测试状态，这可能使未来的AI更加难以被监督。

原文链接