综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
10月19日,Anthropic、英国AI安全研究所和艾伦·图灵研究所联合研究发现,大语言模型(如Claude、ChatGPT等)对数据中毒攻击的防御能力远低于预期。研究表明,仅需250份恶意文件即可在模型中植入后门,影响其响应行为。测试涵盖参数规模从600万到130亿的模型,结果显示,即使在130亿参数模型中,这些文件占比仅为0.00016%,却能触发异常输出。研究人员尝试用干净数据消除后门,但效果有限。尽管测试集中于简单后门且模型规模未达商业旗舰级,研究团队呼吁业界加强安全实践以应对潜在威胁。
原文链接
加载更多
暂无内容