牛津、剑桥等顶尖学术机构联合发布的重要研究揭示了AI训练中的惊人问题——利用AI生成的数据训练AI模型时,模型会出现严重的性能衰减,即所谓的“模型崩溃”。这一现象发生在经过多次迭代后,模型开始产出诡异的乱码并直接崩溃。研究指出,合成数据在AI训练中如同近亲繁殖,导致质量下降,就像向数据集投毒一样。 研究发现,AI生成的数据训练模型时,模型会逐渐丢失对数据分布尾部信息的掌握,即低概率事件的信息会逐渐消失。这一过程被称为“模型崩溃”,会导致模型性能急剧下降。模型崩溃的现象不仅出现在大型语言模型(LLM)中,如GPT系列,还出现在变分自编码器(VAE)和高斯混合模型(GMM)等模型中。 研究团队通过一系列实验论证了这一现象,并提出了可能的解决策略,包括更多地使用人类生成的数据进行训练,以及在每一代模型训练时保留一定比例的原始数据。这一发现强调了高质量、真实数据的重要性,同时也警示了AI训练领域面临的关键挑战。 该研究登上了《自然》杂志封面,标志着AI训练领域的一个重大突破,提醒着AI开发者和研究者关注数据质量对模型性能的影响。这一发现对于正在快速发展的人工智能技术具有深远的意义,特别是在构建更可靠、更高效的AI系统方面。
原文链接
本文链接:https://kx.umi6.com/article/3989.html
转载请注明文章出处
相关推荐
换一换
剥离Chrome还不够?美司法部寻求剥离安卓系统,限制AI训练
2024-11-22 20:09:06
网文作者打响AI训练反击战
2024-07-26 10:52:06
OpenAI 呼吁美国放宽版权限制,自由使用版权保护材料训练 AI 激发创新力
2025-03-14 07:58:58
Meta 为使用盗版素材训练 AI 辩护:下载不分享即合法
2025-02-21 22:59:57
合成数据服务商「卓印智能」获天使轮融资
2024-05-31 15:17:00
英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI
2024-08-06 14:52:00
美国加州法院裁定:使用版权内容训练 AI 属合法行为
2025-06-25 07:26:13
Nature最新封面:AI 训练 AI?也许越来越笨
2024-07-25 09:03:21
为训练AI不择手段!Meta被曝下载数十TB盗版电子书
2025-02-09 11:43:34
Meta 被曝助推数字盗版:30% 训练 AI 书籍遭二次传播
2025-03-27 10:46:05
大模型六小虎,要撞上版权墙了
2025-01-10 21:29:25
合成数据企业「光轮智能」获数千万Pre-A轮融资,经纬创投领投
2024-05-31 11:12:14
硅谷大厂被曝违规“偷”数据:苹果Anthropic用YouTube视频训练AI
2024-07-17 13:34:34
628 文章
369470 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57