1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

牛津、剑桥等顶尖学术机构联合发布的重要研究揭示了AI训练中的惊人问题——利用AI生成的数据训练AI模型时,模型会出现严重的性能衰减,即所谓的“模型崩溃”。这一现象发生在经过多次迭代后,模型开始产出诡异的乱码并直接崩溃。研究指出,合成数据在AI训练中如同近亲繁殖,导致质量下降,就像向数据集投毒一样。 研究发现,AI生成的数据训练模型时,模型会逐渐丢失对数据分布尾部信息的掌握,即低概率事件的信息会逐渐消失。这一过程被称为“模型崩溃”,会导致模型性能急剧下降。模型崩溃的现象不仅出现在大型语言模型(LLM)中,如GPT系列,还出现在变分自编码器(VAE)和高斯混合模型(GMM)等模型中。 研究团队通过一系列实验论证了这一现象,并提出了可能的解决策略,包括更多地使用人类生成的数据进行训练,以及在每一代模型训练时保留一定比例的原始数据。这一发现强调了高质量、真实数据的重要性,同时也警示了AI训练领域面临的关键挑战。 该研究登上了《自然》杂志封面,标志着AI训练领域的一个重大突破,提醒着AI开发者和研究者关注数据质量对模型性能的影响。这一发现对于正在快速发展的人工智能技术具有深远的意义,特别是在构建更可靠、更高效的AI系统方面。

原文链接
本文链接:https://kx.umi6.com/article/3989.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
散户组团挑战算力霸权,40B 模型 + 20 万亿 token 刷新世界纪录
2025-05-26 12:39:10
反转,Claude 3.5超大杯没有训练失败
2024-12-13 18:28:51
微软面临新版权诉讼:未经许可用盗版书训练 AI
2025-06-26 08:57:30
AI生成的数据,竟成为一枚射向自己的子弹?
2024-12-02 19:57:32
加密货币每疯狂一次,人类就离AGI更远一点?
2024-12-02 10:47:58
沈向洋:今天一定要做的一件事是AI For Science|AI锋线
2024-11-26 13:31:54
Claude 用户注意:聊天记录将被用于 AI 训练,默认同意
2025-08-29 09:37:27
Meta 被曝助推数字盗版:30% 训练 AI 书籍遭二次传播
2025-03-27 10:46:05
马斯克:AI训练数据去年就已耗尽,合成数据是唯一补充方法
2025-01-10 11:17:55
OpenAI 呼吁美国放宽版权限制,自由使用版权保护材料训练 AI 激发创新力
2025-03-14 07:58:58
哈佛大学、谷歌发布 100 万本公共领域书籍,为 AI 训练提供合法数据
2024-12-13 09:18:29
Nature最新封面:AI 训练 AI?也许越来越笨
2024-07-25 09:03:21
为训练AI不择手段!Meta被曝下载数十TB盗版电子书
2025-02-09 11:43:34
24小时热文
更多
扫一扫体验小程序