标题:AI生成的数据可能成为自食其果的子弹?
AI生成的文字和图片正日益充斥于互联网。OpenAI首席执行官Sam Altman表示,该公司每天生成约1000亿个单词,但这些内容有多少流入互联网尚不清楚。AI生成的内容可能出现在餐厅评论、约会资料、社交媒体帖子或新闻文章中。尽管缺乏有效检测方法,这类内容依然广泛传播,不仅使真伪难辨,也给AI公司带来难题。
AI生成的数据可能被下一代AI用于训练,导致内容逐渐偏离真实。例如,当AI在自己的输出上反复训练时,输出的数字会逐渐模糊并失去多样性。这类似于一个医疗咨询机器人在有限的医学知识上训练后,提供的疾病列表会越来越少。AI生成的数据通常只是真实数据的糟糕替代品,会导致模型性能下降和偏差增加。
模型崩溃的一个原因是生成式AI在大量自身输出上训练时,其性能会显著下降。这种崩溃表现为AI输出范围缩小,多样性降低。AI生成的数据通常只包含有限的特征,这会导致输出越来越单一,甚至完全崩溃。AI生成的图像也可能出现类似的缺陷,如扭曲的手指或奇怪的图案。
研究显示,AI语言模型在自己生成的数据上训练时,其词汇量和语法多样性会减少,这被称为“语言多样性”的丧失。此外,这一过程可能放大数据中的偏见,甚至抹去少数群体的相关数据。
AI公司应重视高质量、多样化的数据来源。使用真实的人类数据进行训练是解决这一问题的关键。同时,开发检测AI生成内容的方法也很重要,以帮助识别AI生成的数据。尽管存在挑战,但高质量数据始终不可替代。
原文链接
本文链接:https://kx.umi6.com/article/9575.html
转载请注明文章出处
相关推荐
换一换
Nature最新封面:AI 训练 AI?也许越来越笨
2024-07-25 09:03:21
Nature最新封面:AI 训练 AI?也许越来越笨
2024-07-25 09:03:21
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面
2024-07-25 19:17:55
AI 搜索“毒化”现实:模型崩溃隐忧,从神器到“垃圾输出”
2025-05-29 06:52:45
AI 训 AI 遭投毒 9 次后大崩溃,牛津剑桥等发现登 Nature 封面
2024-07-25 18:27:09
研究:反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”
2024-09-05 08:13:11
“死亡互联网理论”刷屏硅谷
2025-10-20 07:59:52
Nature封面:AI训AI,越训越傻
2024-07-27 12:59:34
京东方申请注册AI工厂商标
2026-04-24 13:12:56
豆神教育联合微软Azure推出AI短剧平台
2026-04-24 09:05:36
美团内测万亿级新一代大模型,全程基于国产算力集群训练
2026-04-24 12:12:33
知情人士:华为云码道代码智能体日活增长18倍 本周上线Skill市场
2026-04-22 19:24:53
海光信息宣布Day0适配DeepSeek V4
2026-04-24 15:20:44
746 文章
599524 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38