近日,牛津、剑桥、帝国理工、多伦多等学术机构的研究成果登上《自然》杂志封面,揭示了AI训练AI技术面临的重大挑战。研究指出,在利用AI生成的数据训练AI模型时,模型会出现“崩溃”现象。这一现象发生在模型迭代过程中,导致模型产出内容逐渐失真,最终输出内容与原始数据分布相去甚远,甚至出现胡言乱语、事实错误及逻辑混乱等问题。研究通过实验验证,AI模型在连续迭代训练中,会逐渐吸收并放大自身生成数据的偏差,最终导致模型性能急剧下滑,难以准确反映真实世界。 该研究进一步指出,这一问题的核心在于AI模型在迭代过程中对自身生成数据的过度依赖,导致模型学习过程中的偏差累积,形成所谓的“模型崩溃”。研究团队提出了几种理论解释,通过分析数学模型,量化了AI模型崩溃的成因,包括统计近似误差、函数表达误差以及函数近似误差。这些理论揭示了AI模型在迭代训练过程中,如何在数据处理和学习过程中逐步偏离原始数据分布,最终导致模型性能的严重退化。 研究强调,AI模型在训练过程中应避免过度依赖自身生成的数据,而是应当结合真实世界的数据,以确保模型的稳定性和可靠性。同时,研究建议采用数据过滤、多样化的数据集以及开发更鲁棒的训练算法等方法,以减轻模型崩溃现象的影响。这一发现对AI领域产生了深远影响,提醒科研人员和开发者在构建AI模型时,需重视数据质量和多样性,以及模型训练策略的优化,以确保AI系统的准确性和实用性。
原文链接
本文链接:https://kx.umi6.com/article/3984.html
转载请注明文章出处
相关推荐
换一换
为训练AI不择手段!Meta被曝下载数十TB盗版电子书
2025-02-09 11:43:34
DeepSeek开源周最后一天,重塑AI训练底层逻辑
2025-02-28 12:07:38
消息称蚂蚁集团采用阿里、华为等国产芯片训练 AI:性能匹敌英伟达 H800,成本降低 20%
2025-03-24 15:01:24
剥离Chrome还不够?美司法部寻求剥离安卓系统,限制AI训练
2024-11-22 20:09:06
苹果揭秘 Apple 智能开发:差分隐私 + 合成数据,隐私原则贯穿 AI 技术演进
2025-04-15 08:18:58
Gmail 被指“拿用户邮件训练 AI”,谷歌否认
2025-11-22 16:25:05
自动截图玩家游戏画面训练AI 微软否认:只是为了识别
2025-10-26 18:22:58
印度拟推新规:OpenAI、谷歌等公司用版权内容训练 AI 必须交钱
2025-12-10 08:30:34
小鹏汽车智驾负责人:每年投入35亿AI训练费用
2024-10-24 15:15:11
合成数据服务商「卓印智能」获天使轮融资
2024-05-31 15:17:00
英伟达黄仁勋长女 Madison Huang 直播首秀,聊了具身智能
2025-10-17 10:12:34
马斯克:AI训练去年就已耗尽现实世界的所有资料
2025-01-13 17:57:57
英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI
2024-08-06 14:52:00
732 文章
618718 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38