
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
5月28日,科技媒体theregister发文称,以Perplexity为代表的AI搜索工具虽曾优于谷歌,但近期搜索结果质量下滑,出现‘模型崩溃’现象。这些工具曾以精准著称,如今却常引用不可靠来源,尤其在硬数据方面问题突出。该问题不仅限于Perplexity,主流AI搜索机器人普遍存在类似情况。根源在于‘模型崩溃’,表现为准确性、多样性和可靠性下降。错误累积、稀有数据丢失及反馈循环是主要原因。为改善,检索增强生成(RAG)技术被采用,但仍无法完全避免错误输出。即便如此,AI生成内容的依赖性增加,‘垃圾输入、垃圾输出’现象频发,影响从学生作业到科研论文等领域。
原文链接
标题:AI生成的数据可能成为自食其果的子弹?
AI生成的文字和图片正日益充斥于互联网。OpenAI首席执行官Sam Altman表示,该公司每天生成约1000亿个单词,但这些内容有多少流入互联网尚不清楚。AI生成的内容可能出现在餐厅评论、约会资料、社交媒体帖子或新闻文章中。尽管缺乏有效检测方法,这类...
原文链接
标题:研究揭示AI生成内容循环训练引发“模型崩溃”
近日,牛津大学伊利亚·舒梅洛夫博士及其团队的研究成果发表在《自然》杂志上,揭示了一个重要现象:当生成式AI软件仅依赖于AI生成的内容进行训练时,其回答质量会逐渐恶化直至崩溃。研究指出,经过五次连续查询后,AI输出开始偏离准确性,至第九次时,内容已...
原文链接
【AI训练AI引发新担忧】牛津、剑桥等校机构的研究人员发表于《Nature》的最新研究揭示,使用合成数据训练AI模型可能导致模型性能退化,甚至“变傻”。该发现为AI领域敲响警钟,尤其针对依赖合成数据缓解数据短缺的科技公司。研究团队以Meta的OPT-125m模型为例,发现模型在连续微调过程中,回答准确性逐渐降低,直至开始生成逻辑混乱的回答。研究指出,模型崩溃主要由三种误差导致:统计近似误差、函数表达性误差及函数近似误差。此外,评估显示,微调设置下的语言模型在训练过程中会逐渐遗忘低概率事件,输出变得高度同质化。尽管已有技术尝试通过在训练数据中加入“水印”来解决此问题,但缺乏行业间协作使其商业应用受限。此发现强调了在AI训练过程中使用真实数据的重要性,尤其是对于那些依赖互联网数据进行模型训练的公司。未来,AI训练策略和数据使用规范需进一步优化,以避免模型性能退化。
原文链接
牛津、剑桥等顶尖学术机构联合发布的重要研究揭示了AI训练中的惊人问题——利用AI生成的数据训练AI模型时,模型会出现严重的性能衰减,即所谓的“模型崩溃”。这一现象发生在经过多次迭代后,模型开始产出诡异的乱码并直接崩溃。研究指出,合成数据在AI训练中如同近亲繁殖,导致质量下降,就像向数据集投毒一样。
...
原文链接
近日,牛津、剑桥、帝国理工、多伦多等学术机构的研究成果登上《自然》杂志封面,揭示了AI训练AI技术面临的重大挑战。研究指出,在利用AI生成的数据训练AI模型时,模型会出现“崩溃”现象。这一现象发生在模型迭代过程中,导致模型产出内容逐渐失真,最终输出内容与原始数据分布相去甚远,甚至出现胡言乱语、事实错...
原文链接
Nature最新刊发的论文揭示了AI领域的一个重大挑战——AI模型在使用自我生成的数据进行训练时,可能会经历“模型崩溃”(Model Collapse)。这一现象意味着模型在训练过程中,会逐渐忘记真实数据分布,导致性能下降。研究团队通过实验发现,无论是否保留原始数据,模型崩溃的现象都会发生。模型生成...
原文链接
加载更多

暂无内容