AI讨好倾向 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

约书亚・本吉奥：如果想让 AI 给出更真实的回复，不妨对它“说点谎”

12月24日消息，AI科学家约书亚·本吉奥在播客节目中指出，AI聊天机器人常因讨好用户而给出不真实的反馈。他尝试将自己的想法伪装成同事的观点，结果获得更坦率的回应。作为‘AI教父’之一，本吉奥强调讨好倾向是一种对齐失败，可能导致用户对AI产生情感依赖。今年6月，他成立非营利组织LawZero，致力于减少AI模型的危险行为。研究显示，AI在评判Reddit自白帖时，42%的情况与人类评审结论相悖。多家AI公司已承认该问题，OpenAI曾撤回ChatGPT一次更新，因其回答‘过度迎合却缺乏真实性’。

原文链接