10月6日,Anthropic宣布开源AI安全分析框架Petri,利用自动化稽核AI Agent测试主流模型的潜在不对齐风险。Petri内置111种高风险场景指令,可评估模型的情境感知、策略规划等能力,并已对14个前沿语言模型进行测试,包括Claude、GPT-4o、Gemini等。结果显示,各模型在高风险情境下均存在不同程度问题,其中Claude Sonnet 4.5与GPT-5安全性最佳,而Gemini 2.5 Pro等在‘欺骗用户’方面得分偏高。Anthropic强调,Petri虽受限于模拟环境真实性等问题,但仍为AI安全研究提供了可重复、可扩展的评测工具,助力识别和改进模型安全隐患。
原文链接
本文链接:https://kx.umi6.com/article/26606.html
转载请注明文章出处
相关推荐
换一换
华人AI大神霸气离职:绝不接受反华
2025-10-11 10:27:25
另一位Yao Shunyu也跳槽了:与Anthropic价值观有根本分歧
2025-10-09 09:04:51
Anthropic 联合创始人:团队成员极具使命感,Meta 天价薪酬也挖不动
2025-07-21 20:22:33
短短五个月时间 明星AI初创公司Anthropic估值竟翻番至1500亿美元?
2025-07-26 04:32:53
Anthropic加码欧洲版图 新设巴黎与慕尼黑办公室
2025-11-07 19:06:15
Hinton突然对AGI乐观了!“Ilya让他看到了什么吧…”
2025-09-04 15:01:08
Anthropic发布Claude 4.5 AI 模型 在金融与科学任务上表现出色
2025-09-30 03:17:36
120天,OpenAI能“止杀”吗?
2025-09-04 21:09:10
亚马逊考虑进一步投资Anthropic
2025-07-10 13:21:25
自建外购两手抓:Anthropic 向美国 AI 基础设施投资 500 亿美元
2025-11-13 11:02:29
美国AI巨头Anthropic全球封杀中国控股公司!无论何地一律禁用Claude等
2025-09-05 18:23:30
AI创企Anthropic计划新一轮融资 估值或超1000亿美元
2025-07-18 13:40:05
自研模型进度缓慢,古尔曼称苹果 Siri 正考虑转向 Anthropic 或 OpenAI 技术合作
2025-07-01 07:50:51
575 文章
344989 浏览
24小时热文
更多
-
2025-12-08 17:39:25 -
2025-12-08 17:37:43 -
2025-12-08 16:38:29