10月6日,Anthropic宣布开源AI安全分析框架Petri,利用自动化稽核AI Agent测试主流模型的潜在不对齐风险。Petri内置111种高风险场景指令,可评估模型的情境感知、策略规划等能力,并已对14个前沿语言模型进行测试,包括Claude、GPT-4o、Gemini等。结果显示,各模型在高风险情境下均存在不同程度问题,其中Claude Sonnet 4.5与GPT-5安全性最佳,而Gemini 2.5 Pro等在‘欺骗用户’方面得分偏高。Anthropic强调,Petri虽受限于模拟环境真实性等问题,但仍为AI安全研究提供了可重复、可扩展的评测工具,助力识别和改进模型安全隐患。
原文链接
本文链接:https://kx.umi6.com/article/26606.html
转载请注明文章出处
相关推荐
换一换
最新研究:OpenAI等头部AI企业的安全监管未达到全球标准
2025-12-03 21:44:07
Claude估值暴涨300%!全球独角兽字节第三他第四
2025-09-03 12:44:37
Anthropic将AI编程工具整合到企业计划中
2025-08-21 14:41:02
消息称红杉资本等参与 Anthropic 新一轮 250 亿美元融资,估值达 3500 亿美元
2026-01-18 22:47:49
Anthropic CEO 暗讽谷歌、OpenAI:我们专心搞企业 AI,活得挺滋润
2025-12-04 10:12:39
AI竞争日趋白热化:Anthropic或以1美元价格向美国政府出售产品
2025-08-06 14:35:56
Anthropic:OpenAI 模型易被“滥用”,GPT 竟能提供炸药配方
2025-08-30 16:52:06
Anthropic确认与谷歌云达成价值数百亿美元的合作协议
2025-10-24 05:23:38
120天,OpenAI能“止杀”吗?
2025-09-04 21:09:10
投后估值增至 1830 亿美元,AI 企业 Anthropic 完成 130 亿美元 F 轮融资
2025-09-03 09:42:39
Anthropic发布Claude 4.5 AI 模型 在金融与科学任务上表现出色
2025-09-30 03:17:36
OpenAI与Anthropic树立典范!AI老对手间开始“互测”模型安全性
2025-08-28 11:23:27
诞生才一周年,MCP凉了
2025-12-01 12:04:30
601 文章
402636 浏览
24小时热文
更多
-
2026-01-22 19:09:39 -
2026-01-22 19:08:26 -
2026-01-22 18:06:16