牛津、剑桥等顶尖学术机构联合发布的重要研究揭示了AI训练中的惊人问题——利用AI生成的数据训练AI模型时,模型会出现严重的性能衰减,即所谓的“模型崩溃”。这一现象发生在经过多次迭代后,模型开始产出诡异的乱码并直接崩溃。研究指出,合成数据在AI训练中如同近亲繁殖,导致质量下降,就像向数据集投毒一样。 研究发现,AI生成的数据训练模型时,模型会逐渐丢失对数据分布尾部信息的掌握,即低概率事件的信息会逐渐消失。这一过程被称为“模型崩溃”,会导致模型性能急剧下降。模型崩溃的现象不仅出现在大型语言模型(LLM)中,如GPT系列,还出现在变分自编码器(VAE)和高斯混合模型(GMM)等模型中。 研究团队通过一系列实验论证了这一现象,并提出了可能的解决策略,包括更多地使用人类生成的数据进行训练,以及在每一代模型训练时保留一定比例的原始数据。这一发现强调了高质量、真实数据的重要性,同时也警示了AI训练领域面临的关键挑战。 该研究登上了《自然》杂志封面,标志着AI训练领域的一个重大突破,提醒着AI开发者和研究者关注数据质量对模型性能的影响。这一发现对于正在快速发展的人工智能技术具有深远的意义,特别是在构建更可靠、更高效的AI系统方面。
原文链接
本文链接:https://kx.umi6.com/article/3989.html
转载请注明文章出处
相关推荐
换一换
英伟达最新技术分享:手把手教你用 Llama 3.1 合成数据改进模型!附代码
2024-07-29 17:59:43
Grok 3接受合成数据的训练 合成数据行业展现出巨大价值潜力
2025-02-19 08:44:09
OpenAI 呼吁美国放宽版权限制,自由使用版权保护材料训练 AI 激发创新力
2025-03-14 07:58:58
数据外包,围猎985毕业生
2026-02-06 03:25:32
蚂蚁回应AI训练降本:基于不同芯片持续调优,已开源
2025-03-24 16:15:55
苹果用谷歌TPU训练AI,都怪英伟达太贵?
2024-08-01 11:35:01
英国版权法修订遭质疑,“内定”AI 训练版权豁免
2025-02-12 10:24:06
Meta Facebook 新增 AI 拼贴照片编辑功能引隐私争议,用户利用平台工具修图即被视为训练素材
2025-10-18 07:29:23
英伟达黄仁勋长女 Madison Huang 直播首秀,聊了具身智能
2025-10-17 10:12:34
防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎
2024-08-22 11:28:38
马斯克:现实世界中用于训练 AI 模型的数据已经所剩无几
2025-01-09 16:00:26
AI 训 AI 遭投毒 9 次后大崩溃,牛津剑桥等发现登 Nature 封面
2024-07-25 18:27:09
散户组团挑战算力霸权,40B 模型 + 20 万亿 token 刷新世界纪录
2025-05-26 12:39:10
747 文章
669170 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41