AI模型也能被“洗脑”！仅需250份文件就能控制ChatGPT回应

2025-10-19 22:55:33

心智奇点

发布在

快讯

阅读：287

10月19日，Anthropic、英国AI安全研究所和艾伦·图灵研究所联合研究发现，大语言模型（如Claude、ChatGPT等）对数据中毒攻击的防御能力远低于预期。研究表明，仅需250份恶意文件即可在模型中植入后门，影响其响应行为。测试涵盖参数规模从600万到130亿的模型，结果显示，即使在130亿参数模型中，这些文件占比仅为0.00016%，却能触发异常输出。研究人员尝试用干净数据消除后门，但效果有限。尽管测试集中于简单后门且模型规模未达商业旗舰级，研究团队呼吁业界加强安全实践以应对潜在威胁。

原文链接

本文链接：https://kx.umi6.com/article/26940.html

转载请注明文章出处

后门行为