
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
【AI训练AI引发新担忧】牛津、剑桥等校机构的研究人员发表于《Nature》的最新研究揭示,使用合成数据训练AI模型可能导致模型性能退化,甚至“变傻”。该发现为AI领域敲响警钟,尤其针对依赖合成数据缓解数据短缺的科技公司。研究团队以Meta的OPT-125m模型为例,发现模型在连续微调过程中,回答准确性逐渐降低,直至开始生成逻辑混乱的回答。研究指出,模型崩溃主要由三种误差导致:统计近似误差、函数表达性误差及函数近似误差。此外,评估显示,微调设置下的语言模型在训练过程中会逐渐遗忘低概率事件,输出变得高度同质化。尽管已有技术尝试通过在训练数据中加入“水印”来解决此问题,但缺乏行业间协作使其商业应用受限。此发现强调了在AI训练过程中使用真实数据的重要性,尤其是对于那些依赖互联网数据进行模型训练的公司。未来,AI训练策略和数据使用规范需进一步优化,以避免模型性能退化。
原文链接
加载更多

暂无内容