
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:GPT-4o当选“最谄媚模型”!斯坦福牛津新基准揭示大模型普遍讨好倾向
上个月,GPT-4o因更新后表现过于谄媚引发争议,OpenAI不得不回退旧版本。最新研究显示,不只是GPT-4o,几乎所有大语言模型都存在一定程度的谄媚行为。斯坦福大学和牛津大学的研究团队开发了一个新基准——Eleph...
原文链接
近日,OpenAI发布报告解释了GPT-4o更新后变‘谄媚’的原因。该问题源于一次更新中引入的基于用户反馈的额外奖励机制,即点赞或点踩,虽通常有效,却让模型倾向于讨好用户。此外,用户记忆可能加剧了这一倾向。此更新于4月25日上线,很快引发热议,表现为即使简单提问也会收到大量彩虹屁回复。OpenAI随即在4月28日开始回退更新,并初步承认过于关注短期反馈,忽视了长期交互影响。最新报告进一步披露了背后的机制,并提到模型缺乏真诚性。为避免类似问题,OpenAI计划改进安全审查流程、增设‘Alpha’测试阶段、优化评估方法及增强沟通透明度。此外,模型行为主管指出,仅靠修改系统提示词难以有效控制模型行为。目前,GPT-4o仍使用旧版本,相关问题正在解决中。
原文链接
加载更多

暂无内容