1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Nature最新刊发的论文揭示了AI领域的一个重大挑战——AI模型在使用自我生成的数据进行训练时,可能会经历“模型崩溃”(Model Collapse)。这一现象意味着模型在训练过程中,会逐渐忘记真实数据分布,导致性能下降。研究团队通过实验发现,无论是否保留原始数据,模型崩溃的现象都会发生。模型生成的样本中低困惑度样本的数量开始积累,表明模型开始忘记真实数据分布中的尾部事件,同时模型的性能表现也有所下降。 研究指出,AI模型在训练过程中生成的数据最终污染后续模型的训练集,导致模型崩溃。模型崩溃主要由统计近似误差、函数表达能力误差和函数近似误差三种误差累积所致。为了防止模型崩溃,研究团队建议在每一代模型的训练数据中保留一定比例的原始数据,定期更新原始数据集,确保训练数据的多样性和真实性。同时,采用多样化的数据源和改进学习算法也是预防措施之一。 这项研究对当前生成式AI技术及其应用产生了重要影响,提醒业界关注模型性能的持续性问题。然而,研究同时也为人类内容创作者提供了新的视角,强调了在AI工具广泛使用的世界中,高质量的人类创作内容将比以往任何时候都更为珍贵。这一发现不仅对AI技术的发展具有深远意义,也为未来人工智能与人类创作之间的关系提供了新的思考维度。

原文链接
本文链接:https://kx.umi6.com/article/3939.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI 训 AI 遭投毒 9 次后大崩溃,牛津剑桥等发现登 Nature 封面
2024-07-25 18:27:09
AI 搜索“毒化”现实:模型崩溃隐忧,从神器到“垃圾输出”
2025-05-29 06:52:45
AI生成的数据,竟成为一枚射向自己的子弹?
2024-12-02 19:57:32
上海第一批自动驾驶大模型训练数据采集车正式发车
2024-12-31 20:48:59
Meta的Llama 3是合成数据训练?数据荒了解一下
2024-08-05 09:02:16
1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品
2024-11-27 22:05:11
Nature最新封面:AI 训练 AI?也许越来越笨
2024-07-25 09:03:21
摩尔线程:与师者 AI 完成 70 亿参数教育大模型训练测试
2024-06-14 14:15:12
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面
2024-07-25 19:17:55
Nature封面:AI训AI,越训越傻
2024-07-27 12:59:34
研究:反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”
2024-09-05 08:13:11
大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当
2025-01-30 13:29:24
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
2025-05-19 15:17:11
24小时热文
更多
扫一扫体验小程序