后门行为 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI模型也能被“洗脑”！仅需250份文件就能控制ChatGPT回应

10月19日，Anthropic、英国AI安全研究所和艾伦·图灵研究所联合研究发现，大语言模型（如Claude、ChatGPT等）对数据中毒攻击的防御能力远低于预期。研究表明，仅需250份恶意文件即可在模型中植入后门，影响其响应行为。测试涵盖参数规模从600万到130亿的模型，结果显示，即使在130亿参数模型中，这些文件占比仅为0.00016%，却能触发异常输出。研究人员尝试用干净数据消除后门，但效果有限。尽管测试集中于简单后门且模型规模未达商业旗舰级，研究团队呼吁业界加强安全实践以应对潜在威胁。

原文链接