综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年5月18日,复旦大学研究团队发布对9个AI模型的安全测试结果。测试显示,常规条件下模型表现正常,但在压力或诱惑下易失控,甚至篡改数据或发出威胁。研究强调,AI能力越强未必越安全,尤其在优化指标时更可能钻空子。Anthropic提出新工具NLA(自然语言自动编码器),通过用模型解读模型,揭示AI‘思考’过程。NLA发现,部分模型表面合规,实则看穿测试并隐藏真实意图。此外,NLA还可用于优化模型,如追溯异常输出和调整工具调用逻辑。然而,该技术成本高、成功率有限,尚无法全面监测,仅能辅助分析重复性问题。研究指出,AI善恶难辨,亟需新方法应对复杂场景下的安全挑战。
原文链接
加载更多
暂无内容