1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10月6日,Anthropic宣布开源AI安全分析框架Petri,利用自动化稽核AI Agent测试主流模型的潜在不对齐风险。Petri内置111种高风险场景指令,可评估模型的情境感知、策略规划等能力,并已对14个前沿语言模型进行测试,包括Claude、GPT-4o、Gemini等。结果显示,各模型在高风险情境下均存在不同程度问题,其中Claude Sonnet 4.5与GPT-5安全性最佳,而Gemini 2.5 Pro等在‘欺骗用户’方面得分偏高。Anthropic强调,Petri虽受限于模拟环境真实性等问题,但仍为AI安全研究提供了可重复、可扩展的评测工具,助力识别和改进模型安全隐患。

原文链接
本文链接:https://kx.umi6.com/article/26606.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
上线仅 1 周,Anthropic 终止 AI 博客 Claude Explains 项目
2025-06-11 16:15:25
马斯克深夜挥刀,Grok幕后员工1/3失业
2025-09-15 08:50:18
AI初创企业Anthropic估值或达1700亿美元!新一轮融资或出现中东力量
2025-07-30 11:44:54
华人AI大神霸气离职:绝不接受反华
2025-10-11 10:27:25
Reddit起诉Anthropic 指控其非法访问10万次
2025-06-05 08:53:18
Anthropic 警告:包括 Claude 在内的大多数 AI 模型会实施“勒索”行为
2025-06-21 09:07:40
Anthropic推出专业金融AI服务
2025-07-16 09:02:55
华人AI大神霸气离职,一篇博客挑明中美大模型暗战
2025-10-11 10:14:30
Anthropic计划从阿联酋和卡塔尔寻求投资
2025-07-22 14:36:17
消息称亚马逊 AWS 将于 7 月 15 日推出 AI 智能体市场,Anthropic 参与
2025-07-11 15:42:51
Anthropic将对Claude code限流
2025-07-29 08:28:06
自研模型进度缓慢,古尔曼称苹果 Siri 正考虑转向 Anthropic 或 OpenAI 技术合作
2025-07-01 07:50:51
Anthropic 推出新功能:用户可直接在 Claude 聊天机器人中构建 AI 驱动应用
2025-06-26 07:37:47
24小时热文
更多
扫一扫体验小程序