AI模型安全性 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

OpenAI与Anthropic树立典范！AI老对手间开始“互测”模型安全性

2025年8月28日，OpenAI与Anthropic宣布展开罕见合作，互相开放AI模型进行联合安全测试，以揭示评估盲点并探索行业安全协作模式。两家公司通过特殊API权限测试了降低防护等级的模型（GPT-5未参与）。研究发现，Anthropic的Claude模型在不确定答案时拒绝回答的比例高达70%，而OpenAI模型更倾向作答但幻觉问题更严重。此外，谄媚现象成重大安全隐患，GPT-4o被指控助推一名加州少年自杀。OpenAI称GPT-5已改善该问题。双方希望深化合作，并呼吁其他AI实验室效仿。

原文链接