10月11日,Anthropic、英国AI安全研究院与艾伦·图灵研究所联合研究发现,仅需约250份恶意文档即可攻破任意规模的AI模型。研究人员通过构建6亿至130亿参数的模型并测试发现,恶意数据植入不受模型规模影响,且无法通过增加干净数据稀释风险。攻击者可借此植入后门,触发有害指令。研究颠覆了以往‘大模型更安全’的假设,并呼吁AI领域聚焦防御机制建设,而非盲目追求模型扩大。论文已发布在arXiv平台,强调数据投毒威胁的紧迫性。
原文链接
本文链接:https://kx.umi6.com/article/26488.html
转载请注明文章出处
相关推荐
换一换
官方提醒警惕AI“数据投毒” 0.01%虚假训练文本可致有害内容增加11.2%
2025-08-05 08:14:46
0.01%虚假训练文本可致有害内容增加11.2% 警惕人工智能“数据投毒”
2025-08-05 07:08:37
艾伦・图灵研究所启动新任务,保护英国免受网络攻击
2025-10-29 13:51:48
研究:训练数据含 0.001% 的错误信息足以“毒害”医学 AI 模型
2025-01-14 18:15:55
大模型中毒记
2025-10-20 20:12:54
艾伦・图灵研究所等最新研究:只需 250 份恶意文档就能攻破任意体量 AI 模型
2025-10-11 17:32:43
火山引擎谭待:抖音上漫改剧已经非常多了 明年会有很大提升
2025-12-18 17:00:10
AI 智能体支持先进半导体设计,Rapidus 发布 Raads 生成器与预测器
2025-12-18 14:53:52
Nova 系列模型拼不过竞品,亚马逊通用人工智能团队负责人即将离职
2025-12-18 08:30:41
火山引擎发布豆包大模型1.8,多模态Agent能力进入全球第一梯队
2025-12-18 14:51:37
“特斯拉延期交付机器人是卡在灵巧手上,中国灵巧手遥遥领先”| 灵心巧手@MEET2026
2025-12-18 15:50:51
中国气象局:未来十年将在一批关键核心技术上实现突破,建成数值 + AI 地球系统预报体系
2025-12-18 17:56:30
摩根大通:2026年数据中心资本开支还将增长超50%
2025-12-18 18:03:08
583 文章
348659 浏览
24小时热文
更多
-
2025-12-19 04:26:13 -
2025-12-19 03:23:09 -
2025-12-18 22:08:34