
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年9月6日,一项由清华、蚂蚁和南洋理工联合发布的研究揭示,大语言模型如GPT-4o存在严重的中文数据污染问题。研究发现,AI对“波多野结衣”等成人内容的熟悉度比日常用语“您好”高出2.6倍,超过23%的长中文词元与色情或网络赌博相关。这些“污染词元”源于高频垃圾信息,虽被算法收录,却因缺乏有效训练导致语义理解缺失。研究团队开发了POCDETECT和POCTRACE工具检测污染程度,结果显示GPT系列污染率高达46.6%,而其他模型如GLM4和DeepSeek-V3表现较好。论文指出,互联网语料中的灰色内容难以彻底清理,AI的智能仍基于统计概率,而非真正认知。这提醒我们,AI的缺陷映射了数字环境的现状。
原文链接
8月16日,央视报道了AI数据污染问题及其潜在风险。近年来,AI因训练数据中混入虚假或误导性信息,频繁杜撰内容、传播谣言,甚至引发社会舆论和经济损失。例如,宁波两起无关事件被AI错误关联,儿童手表回答问题时贬低中国文化等案例揭示了问题严重性。专家指出,数据污染分为人为篡改和不良信息未甄别两类,即使是0.001%的污染数据也会显著提高有害输出比例。此外,污染数据可能在金融、公共安全等领域引发判断失误。为防范风险,国家安全部门建议加强源头监管,采用可信数据源,构建数据治理框架,并通过自动化工具与人工审查结合清理受污染数据。
原文链接
8月5日,一男子因轻信AI传播关于格力集团董事长董明珠的谣言被判赔偿7万元。该男子发布所谓“董明珠称想双休的人不值得培养”等虚假言论,引发公众对格力的负面评价。格力公司起诉后,法院判决男子需公开道歉并赔偿经济损失。男子称其通过AI核实信息来源,却未察觉数据错误。同日,国家安全部发文警示,数据污染可能导致AI模型输出有害内容、递归污染及现实风险,尤其是在金融、医疗等领域。案件凸显了AI信息核实与数据质量的重要性。
原文链接
2025年8月5日,媒体披露AI发展带来的严峻生态与安全隐患。数据显示,到2027年,AI预计年耗水66亿立方米,为瑞士用水量两倍;至2030年,数据中心能耗将翻倍达945太瓦时,超日本与瑞士总和。此外,生成式AI在2023年已产生2600吨电子垃圾,预计2030年将达250万吨,相当于133亿部废弃手机重量。安全方面,国家安全部警示‘数据投毒’问题显著,虚假文本仅占0.01%即可使模型有害输出增加11.2%,且污染效应可能延续,进一步威胁数据安全。
原文链接
8月5日,国家安全部发文警示AI训练数据污染问题,指出虚假信息、偏见内容等‘数据投毒’行为对人工智能安全构成新威胁。研究表明,训练数据中仅含0.01%虚假文本,AI输出有害内容将增加11.2%,而0.001%的污染也会导致7.2%的有害输出上升。受污染数据可能通过‘污染遗留效应’影响后续模型训练,尤其在金融、公共安全、医疗健康等领域,风险更为显著。例如,虚假信息可能引发金融市场波动、误导舆论或危及患者安全。当前,AI生成内容已远超人类真实内容,低质量数据的累积正逐代扭曲AI认知能力。
原文链接
8月5日,国家安全部发文警示人工智能数据投毒风险。文章指出,人工智能训练数据中若存在0.01%虚假文本,有害输出将增加11.2%,即使是0.001%虚假文本,也会导致有害输出上升7.2%。数据污染还可能引发递归效应,使错误信息逐代累积,扭曲模型认知能力,并在金融、公共安全、医疗健康等领域带来现实风险。对此,国家安全部提出加强源头监管、强化风险评估和末端清洗修复三大应对方案,明确以《网络安全法》等法律为依据,构建数据治理框架,保障AI数据安全与可靠性。
原文链接
芝大新研究揭示,GPT-4在无上下文情况下,选股准确率高达60%,超越多数人类分析师及专业金融模型。然而,AI专家质疑数据污染可能影响了结果。研究者通过实验,让LLM分析财务报表以预测收益变化,发现其表现优于传统预测,甚至能揭示公司未来潜力。然而,有学者认为成绩可能源于训练数据污染,如包含未来股价信息。实验使用1968-2021年的Compustat数据,展示了GPT-4与ANN模型的互补性,以及对增长和营业利润率的预测能力。尽管如此,人类专业知识短期内不会被取代,但GPT-4无疑正在改变金融分析领域。【#GPT-4#选股#AI技术】
原文链接
加载更多

暂无内容