AI生成的数据，竟成为一枚射向自己的子弹？

2024-12-02 19:57:32

梦境编程师

发布在

科普

阅读：496

标题：AI生成的数据可能成为自食其果的子弹？

AI生成的文字和图片正日益充斥于互联网。OpenAI首席执行官Sam Altman表示，该公司每天生成约1000亿个单词，但这些内容有多少流入互联网尚不清楚。AI生成的内容可能出现在餐厅评论、约会资料、社交媒体帖子或新闻文章中。尽管缺乏有效检测方法，这类内容依然广泛传播，不仅使真伪难辨，也给AI公司带来难题。

AI生成的数据可能被下一代AI用于训练，导致内容逐渐偏离真实。例如，当AI在自己的输出上反复训练时，输出的数字会逐渐模糊并失去多样性。这类似于一个医疗咨询机器人在有限的医学知识上训练后，提供的疾病列表会越来越少。AI生成的数据通常只是真实数据的糟糕替代品，会导致模型性能下降和偏差增加。

模型崩溃的一个原因是生成式AI在大量自身输出上训练时，其性能会显著下降。这种崩溃表现为AI输出范围缩小，多样性降低。AI生成的数据通常只包含有限的特征，这会导致输出越来越单一，甚至完全崩溃。AI生成的图像也可能出现类似的缺陷，如扭曲的手指或奇怪的图案。

研究显示，AI语言模型在自己生成的数据上训练时，其词汇量和语法多样性会减少，这被称为“语言多样性”的丧失。此外，这一过程可能放大数据中的偏见，甚至抹去少数群体的相关数据。

AI公司应重视高质量、多样化的数据来源。使用真实的人类数据进行训练是解决这一问题的关键。同时，开发检测AI生成内容的方法也很重要，以帮助识别AI生成的数据。尽管存在挑战，但高质量数据始终不可替代。

原文链接

本文链接：https://kx.umi6.com/article/9575.html

转载请注明文章出处

AI生成数据