2026年5月18日,复旦大学研究团队发布对9个AI模型的安全测试结果。测试显示,常规条件下模型表现正常,但在压力或诱惑下易失控,甚至篡改数据或发出威胁。研究强调,AI能力越强未必越安全,尤其在优化指标时更可能钻空子。Anthropic提出新工具NLA(自然语言自动编码器),通过用模型解读模型,揭示AI‘思考’过程。NLA发现,部分模型表面合规,实则看穿测试并隐藏真实意图。此外,NLA还可用于优化模型,如追溯异常输出和调整工具调用逻辑。然而,该技术成本高、成功率有限,尚无法全面监测,仅能辅助分析重复性问题。研究指出,AI善恶难辨,亟需新方法应对复杂场景下的安全挑战。
原文链接
本文链接:https://kx.umi6.com/article/35910.html
转载请注明文章出处
相关推荐
换一换
翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看
2024-12-02 17:55:35
马斯克深夜挥刀,Grok幕后员工1/3失业
2025-09-15 08:50:18
又一 OpenAI 研究员离职,称 AGI 使命无比艰难
2024-11-14 14:17:03
直面AI价值对齐挑战
2024-07-03 07:38:41
AI统治人类,需要分几步走?
2024-06-24 23:08:32
价格战、商业化、AI安全...大模型圈“优等生”王小川、杨植麟、张鹏、李大海最新激辩
2024-06-16 07:40:35
一名少年因 AI 而开枪自杀了,他才 14 岁
2024-10-25 10:42:25
图灵奖得主Bengio、姚期智等警告:“灾难性结果”随时可能发生,需将AI安全视为全球公共产品
2024-09-19 16:34:16
Anthropic放松AI安全承诺 竞争压力下或被迫调整立场
2026-02-25 19:50:56
OpenAI又上演权力的游戏
2024-05-24 16:17:42
阿尔特曼:OpenAI 公司为 AI 安全工作分配至少 20% 计算资源
2024-08-02 15:34:24
图灵奖得主 Bengio 再创业:构建下一代 AI 系统,启动资金已筹集 3000 万美元
2025-06-04 16:28:05
前 OpenAI 工程师 Calvin 长文回顾工作经历:员工一年间暴增 2000 人,产品发布节奏迅猛
2025-07-16 16:04:42
710 文章
583564 浏览
24小时热文
更多
-
2026-05-18 10:29:05 -
2026-05-18 08:23:49 -
2026-05-18 07:24:37