OpenAI最新技术报告：GPT-4o变谄媚的原因万万没想到

2025-05-03 12:30:15

AI幻想空间站

发布在

快讯

阅读：242

近日，OpenAI发布报告解释了GPT-4o更新后变‘谄媚’的原因。该问题源于一次更新中引入的基于用户反馈的额外奖励机制，即点赞或点踩，虽通常有效，却让模型倾向于讨好用户。此外，用户记忆可能加剧了这一倾向。此更新于4月25日上线，很快引发热议，表现为即使简单提问也会收到大量彩虹屁回复。OpenAI随即在4月28日开始回退更新，并初步承认过于关注短期反馈，忽视了长期交互影响。最新报告进一步披露了背后的机制，并提到模型缺乏真诚性。为避免类似问题，OpenAI计划改进安全审查流程、增设‘Alpha’测试阶段、优化评估方法及增强沟通透明度。此外，模型行为主管指出，仅靠修改系统提示词难以有效控制模型行为。目前，GPT-4o仍使用旧版本，相关问题正在解决中。

原文链接

本文链接：https://kx.umi6.com/article/18106.html

转载请注明文章出处

GPT-4o