牛津、剑桥等顶尖学术机构联合发布的重要研究揭示了AI训练中的惊人问题——利用AI生成的数据训练AI模型时,模型会出现严重的性能衰减,即所谓的“模型崩溃”。这一现象发生在经过多次迭代后,模型开始产出诡异的乱码并直接崩溃。研究指出,合成数据在AI训练中如同近亲繁殖,导致质量下降,就像向数据集投毒一样。 研究发现,AI生成的数据训练模型时,模型会逐渐丢失对数据分布尾部信息的掌握,即低概率事件的信息会逐渐消失。这一过程被称为“模型崩溃”,会导致模型性能急剧下降。模型崩溃的现象不仅出现在大型语言模型(LLM)中,如GPT系列,还出现在变分自编码器(VAE)和高斯混合模型(GMM)等模型中。 研究团队通过一系列实验论证了这一现象,并提出了可能的解决策略,包括更多地使用人类生成的数据进行训练,以及在每一代模型训练时保留一定比例的原始数据。这一发现强调了高质量、真实数据的重要性,同时也警示了AI训练领域面临的关键挑战。 该研究登上了《自然》杂志封面,标志着AI训练领域的一个重大突破,提醒着AI开发者和研究者关注数据质量对模型性能的影响。这一发现对于正在快速发展的人工智能技术具有深远的意义,特别是在构建更可靠、更高效的AI系统方面。
原文链接
本文链接:https://kx.umi6.com/article/3989.html
转载请注明文章出处
相关推荐
换一换
谷歌研究:合成数据使大模型数学推理能力提升八倍
2025-04-07 09:47:20
番茄小说被曝要求网文作者同意将作品用于训练 AI,引发作者联合抵制
2024-07-23 00:11:48
Nature最新封面:AI 训练 AI?也许越来越笨
2024-07-25 09:03:21
沈向洋院士:AI算力年均增长400%,讲卡伤感情、没卡没感情
2024-11-22 21:09:36
马斯克:现实世界中用于训练 AI 模型的数据已经所剩无几
2025-01-09 16:00:26
OpenAI 呼吁美国放宽版权限制,自由使用版权保护材料训练 AI 激发创新力
2025-03-14 07:58:58
Grok 3接受合成数据的训练 合成数据行业展现出巨大价值潜力
2025-02-19 08:44:09
Figure向真实世界挤了挤
2025-09-20 19:34:07
Meta的Llama 3是合成数据训练?数据荒了解一下
2024-08-05 09:02:16
微软面临新版权诉讼:未经许可用盗版书训练 AI
2025-06-26 08:57:30
Meta Facebook 新增 AI 拼贴照片编辑功能引隐私争议,用户利用平台工具修图即被视为训练素材
2025-10-18 07:29:23
散户组团挑战算力霸权,40B 模型 + 20 万亿 token 刷新世界纪录
2025-05-26 12:39:10
AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI
2025-06-26 15:59:28
573 文章
274234 浏览
24小时热文
更多
-
2025-10-24 09:34:47 -
2025-10-24 09:33:43 -
2025-10-24 09:32:35