1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年9月6日,一项由清华、蚂蚁和南洋理工联合发布的研究揭示,大语言模型如GPT-4o存在严重的中文数据污染问题。研究发现,AI对“波多野结衣”等成人内容的熟悉度比日常用语“您好”高出2.6倍,超过23%的长中文词元与色情或网络赌博相关。这些“污染词元”源于高频垃圾信息,虽被算法收录,却因缺乏有效训练导致语义理解缺失。研究团队开发了POCDETECT和POCTRACE工具检测污染程度,结果显示GPT系列污染率高达46.6%,而其他模型如GLM4和DeepSeek-V3表现较好。论文指出,互联网语料中的灰色内容难以彻底清理,AI的智能仍基于统计概率,而非真正认知。这提醒我们,AI的缺陷映射了数字环境的现状。

原文链接
本文链接:https://kx.umi6.com/article/24795.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
B站亮相 2024 世界人工智能大会,首次展出自研大语言模型
2024-07-05 20:57:56
小红书怎么一夜成为全世界网友都爱的翻译软件?
2025-01-20 21:24:11
UC 伯克利等最新研究:大语言模型就是比人类啰嗦,“提问的艺术”仍难参透
2025-01-30 20:35:59
DeepSeek使用技巧,你收藏这一篇就够了
2025-02-07 21:09:11
嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁
2025-02-18 13:14:03
顶级AI认知能力输给老年人,大模型集体翻车
2025-01-13 09:55:05
官方提醒警惕AI“数据投毒” 0.01%虚假训练文本可致有害内容增加11.2%
2025-08-05 08:14:46
英伟达推出 NIM AI 护栏服务,防止模型遭用户“越狱”
2025-01-18 23:40:43
攻略在手,轻松玩转 DeepSeek
2025-02-08 21:33:12
全球AI顶会 NeurIPS 2024温哥华开幕,中国校企上百篇论文被收录
2024-12-11 16:36:37
国家安全部:警惕人工智能数据投毒,0.01% 虚假文本可致有害输出增加 11.2%
2025-08-05 08:12:26
deepseek关联公司公布大语言模型部署方法专利
2025-08-01 14:04:10
阿里蔡崇信最新发声!训练AI就像教育孩子 三四年就能赶超博士
2024-06-02 14:38:27
24小时热文
更多
扫一扫体验小程序