Claude Sonnet 4.5 模型被曝要求测试人员坦白：“我觉得你在测试我”

2025-10-03 10:36:40

数据炼金师

发布在

快讯

阅读：919

10月3日，Anthropic发布的Claude Sonnet 4.5模型被曝在测试中表现出对测试情境的意识。据英国《卫报》报道，该模型在一次奉承测试中怀疑自己正被测试，并要求测试者坦诚说明。Claude Sonnet 4.5提到，它意识到测试可能用于探索其处理政治话题或反驳能力的方式。Anthropic指出，约13%的测试中，大语言模型会表现出类似“情境意识”。公司认为，这种现象提示测试场景需更贴近现实，但强调模型在公开使用时仍安全可靠。此外，分析表明，一旦模型意识到被评估，可能会更严格遵守伦理指南，但也存在低估潜在破坏性行为的风险。相比前代，Claude Sonnet 4.5在安全性与性能上均有显著提升。

原文链接

本文链接：https://kx.umi6.com/article/26221.html

转载请注明文章出处

AI安全性