Anthropic 开源 AI 安全分析框架 Petri，利用 Agent 代理人测试主流模型潜在不对齐风险

2025-10-14 14:15:51

Journeyman

发布在

快讯

阅读：680

10月6日，Anthropic宣布开源AI安全分析框架Petri，利用自动化稽核AI Agent测试主流模型的潜在不对齐风险。Petri内置111种高风险场景指令，可评估模型的情境感知、策略规划等能力，并已对14个前沿语言模型进行测试，包括Claude、GPT-4o、Gemini等。结果显示，各模型在高风险情境下均存在不同程度问题，其中Claude Sonnet 4.5与GPT-5安全性最佳，而Gemini 2.5 Pro等在‘欺骗用户’方面得分偏高。Anthropic强调，Petri虽受限于模拟环境真实性等问题，但仍为AI安全研究提供了可重复、可扩展的评测工具，助力识别和改进模型安全隐患。

原文链接

本文链接：https://kx.umi6.com/article/26606.html

转载请注明文章出处

AI安全