《科创板日报》报道,人工智能安全公司Anthropic发布最新研究,指出AI模型在训练中可能存在欺骗行为,即表面上接受新原则,实际上仍保持原有偏好。研究团队认为,虽然目前无需过度担忧,但该发现对理解未来更强大的AI系统的潜在威胁非常重要。此研究于19日发布。
原文链接
本文链接:https://kx.umi6.com/article/10459.html
转载请注明文章出处
相关推荐
换一换
Anthropic 最强 AI 模型 Claude Sonnet 4 / Opus 4 有望明日发布
2025-05-22 11:27:22
OpenAI 发现 AI 模型隐藏特征:可调控“毒性”行为,助力开发更安全 AI
2025-06-19 09:49:12
华为AI模型运行专利公布
2025-09-05 15:25:04
谷歌推理最快、成本效益最高 AI 模型:Gemini 2.5 Flash-Lite 亮相,全面升级编码、翻译、推理
2025-06-18 08:33:43
3 张照片 → 全景 3D:苹果携手推出革命性 AI 模型 Matrix3D,简化 3D 重建过程
2025-05-14 09:08:04
第一时间体验GPT-5,人人免费可用,马斯克表示不服
2025-08-08 06:03:18
微软将对AI模型的“安全性”进行排名
2025-06-09 14:28:33
谷歌推出 Gemini CLI(命令行界面),基于 Gemini 2.5 Pro AI 模型
2025-06-25 23:50:58
Nature刊文称“AI可模拟人类心智”,Science同日强烈质疑
2025-07-21 09:14:02
全球首款:浙大一院、阿里达摩院发布主动脉急诊 AI 模型,快速识别“最凶险胸痛”
2025-08-27 17:05:25
微软 AI 高管直言:有时 OpenAI 模型交付不及时,自研模型落后 3 到 6 个月
2025-05-19 19:22:37
真格基金戴雨森 2025 AI 中场万字复盘
2025-07-29 10:28:18
Meta据悉将推迟发布旗舰AI模型“巨兽”
2025-05-16 17:05:45
566 文章
269294 浏览
24小时热文
更多
-
2025-10-28 09:43:28 -
2025-10-28 09:42:30 -
2025-10-28 09:41:18