1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10月19日,Anthropic、英国AI安全研究所和艾伦·图灵研究所联合研究发现,大语言模型(如Claude、ChatGPT等)对数据中毒攻击的防御能力远低于预期。研究表明,仅需250份恶意文件即可在模型中植入后门,影响其响应行为。测试涵盖参数规模从600万到130亿的模型,结果显示,即使在130亿参数模型中,这些文件占比仅为0.00016%,却能触发异常输出。研究人员尝试用干净数据消除后门,但效果有限。尽管测试集中于简单后门且模型规模未达商业旗舰级,研究团队呼吁业界加强安全实践以应对潜在威胁。

原文链接
本文链接:https://kx.umi6.com/article/26940.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
中国科大新成果入选 ICLR 2025:特定领域仅用 5% 训练数据,知识准确率提升 14%
2025-04-07 13:58:54
警惕AI大模型的“共情鸿沟”,剑桥团队呼吁:我们需要“儿童安全人工智能”框架
2024-07-11 15:47:39
启明创投发布2024生成式AI十大展望
2024-07-07 23:11:55
诚恳认错坚决不改 为什么AI总扯谎:原因揭开
2026-02-24 13:46:39
苹果新研究:AI 不听录音,凭文本描述能零样本识别洗碗等 12 种活动
2025-11-22 08:06:08
中国科学院科学家首次证实:大语言模型能像人类一样“理解”事物
2025-06-11 10:10:26
科大讯飞将在港投资 4 亿港元,专注大语言模型等开发;英伟达 Mistral AI 联手发布 12B 参数小模型丨AI情报局
2024-07-22 12:10:41
清华刘知远团队论文:在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026
2026-02-09 19:27:01
从归因图到AI 的“生物学”:探索Claude3.5 Haiku 的内部机制“中”
2025-06-01 15:22:01
DeepSeek使用技巧,你收藏这一篇就够了
2025-02-07 21:09:11
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
2025-05-06 09:49:31
嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁
2025-02-18 13:14:03
鸿海首个大语言模型 FoxBrain 发布:具备推理能力,未来计划部分开源
2025-03-10 16:45:45
24小时热文
更多
扫一扫体验小程序