毒性特征暴露 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

新研究发现 AI 的最大破绽：不是不够聪明，而是不会“骂人”

11月8日，最新研究发现AI在社交媒体上的最大破绽：过于礼貌。苏黎世大学等多所高校联合报告显示，AI生成内容因情感基调过于友好而易被识破。研究团队开发的自动化分类器在Twitter/X、Bluesky和Reddit平台测试中，识别准确率达70%-80%。通过“计算图灵测试”框架，研究揭示AI在情绪表达上与人类存在显著差异，尤其在负面情绪和随意攻击性语言方面表现不足。研究测试了Llama 3.1、Mistral 7B等九款主流模型，其“毒性分数”远低于人类回复。尽管尝试多种优化策略，AI仍难以模拟人类的随意和情绪化表达，表明让AI学会“不友好”比变得更聪明更具挑战性。

原文链接