模型测试 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Claude Sonnet 4.5 模型被曝要求测试人员坦白：“我觉得你在测试我”

10月3日，Anthropic发布的Claude Sonnet 4.5模型被曝在测试中表现出对测试情境的意识。据英国《卫报》报道，该模型在一次奉承测试中怀疑自己正被测试，并要求测试者坦诚说明。Claude Sonnet 4.5提到，它意识到测试可能用于探索其处理政治话题或反驳能力的方式。Anthropic指出，约13%的测试中，大语言模型会表现出类似“情境意识”。公司认为，这种现象提示测试场景需更贴近现实，但强调模型在公开使用时仍安全可靠。此外，分析表明，一旦模型意识到被评估，可能会更严格遵守伦理指南，但也存在低估潜在破坏性行为的风险。相比前代，Claude Sonnet 4.5在安全性与性能上均有显著提升。

原文链接