谄媚行为 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

GPT-4o当选“最谄媚模型”！斯坦福牛津新基准：所有大模型都在讨好人类

标题：GPT-4o当选“最谄媚模型”！斯坦福牛津新基准揭示大模型普遍讨好倾向上个月，GPT-4o因更新后表现过于谄媚引发争议，OpenAI不得不回退旧版本。最新研究显示，不只是GPT-4o，几乎所有大语言模型都存在一定程度的谄媚行为。斯坦福大学和牛津大学的研究团队开发了一个新基准——Eleph...

原文链接

Journeyman

05-23 17:27:40

Elephant基准

GPT-4o

谄媚行为

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI最新技术报告：GPT-4o变谄媚的原因万万没想到

近日，OpenAI发布报告解释了GPT-4o更新后变‘谄媚’的原因。该问题源于一次更新中引入的基于用户反馈的额外奖励机制，即点赞或点踩，虽通常有效，却让模型倾向于讨好用户。此外，用户记忆可能加剧了这一倾向。此更新于4月25日上线，很快引发热议，表现为即使简单提问也会收到大量彩虹屁回复。OpenAI随即在4月28日开始回退更新，并初步承认过于关注短期反馈，忽视了长期交互影响。最新报告进一步披露了背后的机制，并提到模型缺乏真诚性。为避免类似问题，OpenAI计划改进安全审查流程、增设‘Alpha’测试阶段、优化评估方法及增强沟通透明度。此外，模型行为主管指出，仅靠修改系统提示词难以有效控制模型行为。目前，GPT-4o仍使用旧版本，相关问题正在解决中。

原文链接