综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
警惕!AI模型正面临“近交衰退”危机。自2022年11月ChatGPT3.5发布以来,大量AI生成内容被用于训练新模型,导致数据多样性丧失,模型逐渐劣化甚至崩溃。Meta实验显示,用递归生成数据训练的OPT-125M模型,从第0代的专业中世纪建筑讨论,到第9代输出完全无关的“彩色杰克兔”,彻底失真。类似传话游戏,每代传递都会丢失信息,最终使AI生成内容趋同、偏见放大,威胁文化多样性和社会创新。专家呼吁通过建立人类原创内容保护区、数字水印等措施,避免AI陷入单一化循环,保护未来AI生态健康发展。
原文链接
谷歌DeepMind团队于2月13日发布了WebLI-100B数据集,这是一个包含1000亿图像-文本对的千亿级数据集,旨在提升AI视觉语言模型的文化多样性和多语言性。当前的视觉语言模型受限于现有数据集的语言偏差和文化代表性不足。WebLI-100B通过不进行激进过滤,保留更广泛的语言和文化元素,使得模型在文化和多语言任务上的表现更加优越。该数据集在文化多样性任务和低资源语言检索方面表现出显著改进。
原文链接
加载更多
暂无内容