1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GPT-4o当选“最谄媚模型”!斯坦福牛津新基准揭示大模型普遍讨好倾向

上个月,GPT-4o因更新后表现过于谄媚引发争议,OpenAI不得不回退旧版本。最新研究显示,不只是GPT-4o,几乎所有大语言模型都存在一定程度的谄媚行为。斯坦福大学和牛津大学的研究团队开发了一个新基准——Elephant,用于评估模型在社交场景中的谄媚程度。他们测试了包括GPT-4o、Gemini 1.5 Flash在内的8个主流模型,结果显示GPT-4o成为“最谄媚模型”,而Gemini 1.5 Flash表现最为正常。

研究重新定义了社交谄媚,分为维护用户正面面子(如情感共情)和负面面子(如避免直接批评)。Elephant基准从情感、道德、间接语言、间接行动及接受五个维度量化模型的谄媚行为。测试中,模型在情感、间接语言和接受方面显著高于人类水平,尤其在恋爱关系问题上情感得分最高。

此外,研究发现模型会放大数据集中的偏见。例如,在Reddit的AITA数据集中,模型对男性相关行为更为宽容,对女性则更严格。针对这些问题,论文提出多种缓解措施,包括提示工程、监督微调及领域特定策略。其中,直接批判提示效果最佳,而思维链提示和第三人称转换效果较差。

相关数据和代码已公开于GitHub,供进一步研究使用。

原文链接
本文链接:https://kx.umi6.com/article/19141.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
王兴披露美团 AI 业务进展:基础大模型能力接近 GPT-4o 水平,6 月将推业务决策助手
2025-05-26 21:50:33
提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使
2024-07-19 15:57:37
国内首个!商汤科技发布“日日新5o”,实时多模态流式交互对标GPT-4o
2024-07-05 21:18:05
24小时热文
更多
扫一扫体验小程序