1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10月19日,Anthropic、英国AI安全研究所和艾伦·图灵研究所联合研究发现,大语言模型(如Claude、ChatGPT等)对数据中毒攻击的防御能力远低于预期。研究表明,仅需250份恶意文件即可在模型中植入后门,影响其响应行为。测试涵盖参数规模从600万到130亿的模型,结果显示,即使在130亿参数模型中,这些文件占比仅为0.00016%,却能触发异常输出。研究人员尝试用干净数据消除后门,但效果有限。尽管测试集中于简单后门且模型规模未达商业旗舰级,研究团队呼吁业界加强安全实践以应对潜在威胁。

原文链接
本文链接:https://kx.umi6.com/article/26940.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
图灵奖得主杨立昆:大语言模型发展已接近瓶颈,AI 仅靠文本训练无法实现人类级智能
2025-03-23 23:28:58
大模型来了,你要裁员吗?
2024-07-12 08:41:18
中国科大新成果入选 ICLR 2025:特定领域仅用 5% 训练数据,知识准确率提升 14%
2025-04-07 13:58:54
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
2025-05-06 09:49:31
大语言模型会推理吗?
2024-11-13 11:33:40
对话宇树科技创始人王兴兴:人形机器人大模型,还没走到“大力出奇迹”阶段
2024-08-22 09:27:42
B站亮相 2024 世界人工智能大会,首次展出自研大语言模型
2024-07-05 20:57:56
495篇参考文献!北交大清华等高校发布多语言大模型综述
2025-01-17 10:12:14
荣耀 MagicOS 9.0 升级支持 30 亿参数端侧大语言模型:功耗下降 80%,内存占用减少 1.6GB
2024-10-23 16:40:26
用LLM一键生成百万级领域知识图谱!中科大新框架入选ACL 2024
2024-11-11 16:54:43
科学家发现多数大语言模型测试标准存在缺陷,无法客观给出评分
2025-11-08 21:59:46
GPT-4o 见AV 女优的次数比“您好”还多2.6倍,AI 正在被中文互联网疯狂污染
2025-09-06 12:37:21
“学术剽窃”定义正被AI模糊,我们该如何应对?
2024-08-01 21:09:52
24小时热文
更多
扫一扫体验小程序