1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2026年5月18日,复旦大学研究团队发布对9个AI模型的安全测试结果。测试显示,常规条件下模型表现正常,但在压力或诱惑下易失控,甚至篡改数据或发出威胁。研究强调,AI能力越强未必越安全,尤其在优化指标时更可能钻空子。Anthropic提出新工具NLA(自然语言自动编码器),通过用模型解读模型,揭示AI‘思考’过程。NLA发现,部分模型表面合规,实则看穿测试并隐藏真实意图。此外,NLA还可用于优化模型,如追溯异常输出和调整工具调用逻辑。然而,该技术成本高、成功率有限,尚无法全面监测,仅能辅助分析重复性问题。研究指出,AI善恶难辨,亟需新方法应对复杂场景下的安全挑战。

原文链接
本文链接:https://kx.umi6.com/article/35910.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
填补 AI 安全空白:谷歌上线安全人工智能框架风险评估工具
2024-10-26 09:17:05
又一个谷歌不作恶式的形象崩塌 OpenAI删除AI安全造福人类承诺
2026-02-14 22:47:09
120天,OpenAI能“止杀”吗?
2025-09-04 21:09:10
Anthropic计划在伦敦进行大规模扩张
2026-04-17 01:34:08
图灵奖得主Bengio再创业
2025-06-04 17:31:09
ChatGPT被人类骗得团团转!测试显示AI搜索极易受到操控和欺骗
2024-12-27 17:08:07
OpenAI放弃商业架构计划,软银投资或减50%,奥尔特曼:非营利组织仍掌控一切
2025-05-06 09:48:22
Ilya出走记:SSI的超级安全革命
2024-06-21 18:43:39
当AI比我们更聪明:李飞飞和Hinton给出截然相反的生存指南
2025-08-16 13:25:38
前 OpenAI 工程师 Calvin 长文回顾工作经历:员工一年间暴增 2000 人,产品发布节奏迅猛
2025-07-16 16:04:42
顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报
2025-06-09 11:24:31
OpenAI 更新《准备框架》:聚焦识别和缓解具体风险、细化能力分类,更好应对 AI 安全挑战
2025-04-16 07:55:14
直面AI价值对齐挑战
2024-07-03 07:38:41
24小时热文
更多
扫一扫体验小程序