10月19日,Anthropic、英国AI安全研究所和艾伦·图灵研究所联合研究发现,大语言模型(如Claude、ChatGPT等)对数据中毒攻击的防御能力远低于预期。研究表明,仅需250份恶意文件即可在模型中植入后门,影响其响应行为。测试涵盖参数规模从600万到130亿的模型,结果显示,即使在130亿参数模型中,这些文件占比仅为0.00016%,却能触发异常输出。研究人员尝试用干净数据消除后门,但效果有限。尽管测试集中于简单后门且模型规模未达商业旗舰级,研究团队呼吁业界加强安全实践以应对潜在威胁。
原文链接
本文链接:https://kx.umi6.com/article/26940.html
转载请注明文章出处
相关推荐
.png)
换一换
Meta前高管警告:AI市场大概率会有一波调整
2025-10-16 20:00:09
对话宇树科技创始人王兴兴:人形机器人大模型,还没走到“大力出奇迹”阶段
2024-08-22 09:27:42
GPT-4o 见AV 女优的次数比“您好”还多2.6倍,AI 正在被中文互联网疯狂污染
2025-09-06 12:37:21
从归因图到AI 的“生物学”:探索Claude3.5 Haiku 的内部机制“中”
2025-06-01 15:22:01
阿里AI TO C 业务启动近千人招聘
2025-08-13 16:39:25
AI模拟社会的“幕后”操控者是谁?
2025-01-21 14:39:42
荣耀 MagicOS 9.0 升级支持 30 亿参数端侧大语言模型:功耗下降 80%,内存占用减少 1.6GB
2024-10-23 16:40:26
下一代 RAG 技术来了,微软正式开源 GraphRAG:大模型行业将迎来新的升级?
2024-07-04 18:52:32
大语言模型会推理吗?
2024-11-13 11:33:40
美国哥伦比亚大学研究:大语言模型正在变得越来越像人类大脑
2024-12-20 11:27:54
495篇参考文献!北交大清华等高校发布多语言大模型综述
2025-01-17 10:12:14
蔡恒进:具备独立思考与问题解决能力的AI才是未来发展方向|直击2024外滩大会
2024-09-05 19:39:46
用LLM一键生成百万级领域知识图谱!中科大新框架入选ACL 2024
2024-11-11 16:54:43
484 文章
217453 浏览
24小时热文
更多

-
2025-10-19 23:54:47
-
2025-10-19 22:55:33
-
2025-10-19 22:54:26