Nature最新刊发的论文揭示了AI领域的一个重大挑战——AI模型在使用自我生成的数据进行训练时,可能会经历“模型崩溃”(Model Collapse)。这一现象意味着模型在训练过程中,会逐渐忘记真实数据分布,导致性能下降。研究团队通过实验发现,无论是否保留原始数据,模型崩溃的现象都会发生。模型生成的样本中低困惑度样本的数量开始积累,表明模型开始忘记真实数据分布中的尾部事件,同时模型的性能表现也有所下降。 研究指出,AI模型在训练过程中生成的数据最终污染后续模型的训练集,导致模型崩溃。模型崩溃主要由统计近似误差、函数表达能力误差和函数近似误差三种误差累积所致。为了防止模型崩溃,研究团队建议在每一代模型的训练数据中保留一定比例的原始数据,定期更新原始数据集,确保训练数据的多样性和真实性。同时,采用多样化的数据源和改进学习算法也是预防措施之一。 这项研究对当前生成式AI技术及其应用产生了重要影响,提醒业界关注模型性能的持续性问题。然而,研究同时也为人类内容创作者提供了新的视角,强调了在AI工具广泛使用的世界中,高质量的人类创作内容将比以往任何时候都更为珍贵。这一发现不仅对AI技术的发展具有深远意义,也为未来人工智能与人类创作之间的关系提供了新的思考维度。
原文链接
本文链接:https://kx.umi6.com/article/3939.html
转载请注明文章出处
相关推荐
.png)
换一换
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
2025-05-19 15:17:11
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面
2024-07-25 19:17:55
AI生成的数据,竟成为一枚射向自己的子弹?
2024-12-02 19:57:32
419 文章
63858 浏览
24小时热文
更多

-
2025-07-20 17:06:49
-
2025-07-20 16:05:44
-
2025-07-20 16:05:36