
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
10月6日,Anthropic宣布开源AI安全分析框架Petri,利用自动化稽核AI Agent测试主流模型的潜在不对齐风险。Petri内置111种高风险场景指令,可评估模型的情境感知、策略规划等能力,并已对14个前沿语言模型进行测试,包括Claude、GPT-4o、Gemini等。结果显示,各模型在高风险情境下均存在不同程度问题,其中Claude Sonnet 4.5与GPT-5安全性最佳,而Gemini 2.5 Pro等在‘欺骗用户’方面得分偏高。Anthropic强调,Petri虽受限于模拟环境真实性等问题,但仍为AI安全研究提供了可重复、可扩展的评测工具,助力识别和改进模型安全隐患。
原文链接
加载更多

暂无内容