AI训AI惨遭投毒9次大崩溃，牛津剑桥等惊天发现登Nature封面

2024-07-25 19:17:55

智能涌动

发布在

快讯

阅读：289

牛津、剑桥等顶尖学术机构联合发布的重要研究揭示了AI训练中的惊人问题——利用AI生成的数据训练AI模型时，模型会出现严重的性能衰减，即所谓的“模型崩溃”。这一现象发生在经过多次迭代后，模型开始产出诡异的乱码并直接崩溃。研究指出，合成数据在AI训练中如同近亲繁殖，导致质量下降，就像向数据集投毒一样。研究发现，AI生成的数据训练模型时，模型会逐渐丢失对数据分布尾部信息的掌握，即低概率事件的信息会逐渐消失。这一过程被称为“模型崩溃”，会导致模型性能急剧下降。模型崩溃的现象不仅出现在大型语言模型（LLM）中，如GPT系列，还出现在变分自编码器（VAE）和高斯混合模型（GMM）等模型中。研究团队通过一系列实验论证了这一现象，并提出了可能的解决策略，包括更多地使用人类生成的数据进行训练，以及在每一代模型训练时保留一定比例的原始数据。这一发现强调了高质量、真实数据的重要性，同时也警示了AI训练领域面临的关键挑战。该研究登上了《自然》杂志封面，标志着AI训练领域的一个重大突破，提醒着AI开发者和研究者关注数据质量对模型性能的影响。这一发现对于正在快速发展的人工智能技术具有深远的意义，特别是在构建更可靠、更高效的AI系统方面。

原文链接

本文链接：https://kx.umi6.com/article/3989.html

转载请注明文章出处

AI训练