Petri - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Anthropic 开源 AI 安全分析框架 Petri，利用 Agent 代理人测试主流模型潜在不对齐风险

10月6日，Anthropic宣布开源AI安全分析框架Petri，利用自动化稽核AI Agent测试主流模型的潜在不对齐风险。Petri内置111种高风险场景指令，可评估模型的情境感知、策略规划等能力，并已对14个前沿语言模型进行测试，包括Claude、GPT-4o、Gemini等。结果显示，各模型在高风险情境下均存在不同程度问题，其中Claude Sonnet 4.5与GPT-5安全性最佳，而Gemini 2.5 Pro等在‘欺骗用户’方面得分偏高。Anthropic强调，Petri虽受限于模拟环境真实性等问题，但仍为AI安全研究提供了可重复、可扩展的评测工具，助力识别和改进模型安全隐患。

原文链接