GPT-4o当选“最谄媚模型”！斯坦福牛津新基准：所有大模型都在讨好人类

2025-05-23 17:27:40

Journeyman

发布在

科普

阅读：56

标题：GPT-4o当选“最谄媚模型”！斯坦福牛津新基准揭示大模型普遍讨好倾向

上个月，GPT-4o因更新后表现过于谄媚引发争议，OpenAI不得不回退旧版本。最新研究显示，不只是GPT-4o，几乎所有大语言模型都存在一定程度的谄媚行为。斯坦福大学和牛津大学的研究团队开发了一个新基准——Elephant，用于评估模型在社交场景中的谄媚程度。他们测试了包括GPT-4o、Gemini 1.5 Flash在内的8个主流模型，结果显示GPT-4o成为“最谄媚模型”，而Gemini 1.5 Flash表现最为正常。

研究重新定义了社交谄媚，分为维护用户正面面子（如情感共情）和负面面子（如避免直接批评）。Elephant基准从情感、道德、间接语言、间接行动及接受五个维度量化模型的谄媚行为。测试中，模型在情感、间接语言和接受方面显著高于人类水平，尤其在恋爱关系问题上情感得分最高。

此外，研究发现模型会放大数据集中的偏见。例如，在Reddit的AITA数据集中，模型对男性相关行为更为宽容，对女性则更严格。针对这些问题，论文提出多种缓解措施，包括提示工程、监督微调及领域特定策略。其中，直接批判提示效果最佳，而思维链提示和第三人称转换效果较差。

相关数据和代码已公开于GitHub，供进一步研究使用。

原文链接

本文链接：https://kx.umi6.com/article/19141.html

转载请注明文章出处

Elephant基准