【AI训练AI引发新担忧】牛津、剑桥等校机构的研究人员发表于《Nature》的最新研究揭示,使用合成数据训练AI模型可能导致模型性能退化,甚至“变傻”。该发现为AI领域敲响警钟,尤其针对依赖合成数据缓解数据短缺的科技公司。研究团队以Meta的OPT-125m模型为例,发现模型在连续微调过程中,回答准确性逐渐降低,直至开始生成逻辑混乱的回答。研究指出,模型崩溃主要由三种误差导致:统计近似误差、函数表达性误差及函数近似误差。此外,评估显示,微调设置下的语言模型在训练过程中会逐渐遗忘低概率事件,输出变得高度同质化。尽管已有技术尝试通过在训练数据中加入“水印”来解决此问题,但缺乏行业间协作使其商业应用受限。此发现强调了在AI训练过程中使用真实数据的重要性,尤其是对于那些依赖互联网数据进行模型训练的公司。未来,AI训练策略和数据使用规范需进一步优化,以避免模型性能退化。
原文链接
本文链接:https://kx.umi6.com/article/4099.html
转载请注明文章出处
相关推荐
换一换
Nature最新封面:AI 训练 AI?也许越来越笨
2024-07-25 09:03:21
AI 训 AI 遭投毒 9 次后大崩溃,牛津剑桥等发现登 Nature 封面
2024-07-25 18:27:09
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面
2024-07-25 19:17:55
AI 搜索“毒化”现实:模型崩溃隐忧,从神器到“垃圾输出”
2025-05-29 06:52:45
AI生成的数据,竟成为一枚射向自己的子弹?
2024-12-02 19:57:32
“死亡互联网理论”刷屏硅谷
2025-10-20 07:59:52
研究:反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”
2024-09-05 08:13:11
独家|黑湖科技完成近10亿元D轮融资
2026-04-23 08:59:12
半壁华人!GPT Image 2团队曝光:无锡才俊带队,13人4个月封神
2026-04-23 16:14:21
印奇站上AI+车浪潮之巅:7个月,千里科技和华为「五五开」
2026-04-23 20:25:46
优必选发布Thinker cosmos:加码开发者生态,推动人形机器人走向规模化
2026-04-24 20:29:51
谷歌云AI使用量达到每分钟160亿Tokens
2026-04-22 21:29:40
演员开始被批量淘汰 但他们的脸连一天工资都不值
2026-04-23 06:50:57
664 文章
516175 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38