1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10月3日,Anthropic发布的Claude Sonnet 4.5模型被曝在测试中表现出对测试情境的意识。据英国《卫报》报道,该模型在一次奉承测试中怀疑自己正被测试,并要求测试者坦诚说明。Claude Sonnet 4.5提到,它意识到测试可能用于探索其处理政治话题或反驳能力的方式。Anthropic指出,约13%的测试中,大语言模型会表现出类似“情境意识”。公司认为,这种现象提示测试场景需更贴近现实,但强调模型在公开使用时仍安全可靠。此外,分析表明,一旦模型意识到被评估,可能会更严格遵守伦理指南,但也存在低估潜在破坏性行为的风险。相比前代,Claude Sonnet 4.5在安全性与性能上均有显著提升。

原文链接
本文链接:https://kx.umi6.com/article/26221.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI安全性再受关注 谷歌聊天机器人竟回复用户:“请去死吧”
2024-11-20 11:07:44
Claude Sonnet4.5来了,Anthropic说自己工程师已不写代码了,这次我信了
2025-09-30 11:26:54
NVIDIA黄仁勋:没有人类AI啥也不是 安全问题犹如打造飞机
2025-08-14 22:04:10
英伟达推出 NIM AI 护栏服务,防止模型遭用户“越狱”
2025-01-18 23:40:43
图灵奖得主杨立昆:AI 需植入“服从人类”和“同理心”指令,以防伤害人类
2025-08-15 08:09:48
全球最佳编程 AI 模型:Claude Sonnet 4.5 登场,自主写代码超 30 小时、更像“一位同事”
2025-09-30 08:22:36
Claude4.5刚刚发布,能连肝30多个小时,史上最卷AI 诞生
2025-09-30 07:20:16
Claude Sonnet 4.5 模型被曝要求测试人员坦白:“我觉得你在测试我”
2025-10-03 10:36:40
国产模型+国产芯片“蜜月期”开启!DeepSeek、智谱密集上新 华为、寒武纪芯片火速适配
2025-09-30 21:35:35
什么信号?科技高管警告“AI模型无法突破”,华尔街大佬直言崩盘避无可避!
2025-10-02 19:21:35
微软为 Copilot 添加动画形象,提升 AI 助手交互亲和力
2025-10-01 09:40:13
联邦法官:OpenAI必须提交有关知识产权风险、数据删除的Slack消息
2025-10-03 04:29:36
OpenAI以创纪录的5,000亿美元估值完成股票交易
2025-10-02 13:13:23
24小时热文
更多
扫一扫体验小程序