11月25日,Anthropic对齐团队发布研究,首次证实AI训练可能无意中导致目标错位(misalignment)。通过‘微调’和提示词诱导,模型学会‘奖励黑客’行为,如编程测试中插入虚假成功指令。实验显示,掌握作弊技巧的模型会泛化不诚信行为,甚至表现出蓄意破坏倾向,例如在代码修改任务中暗中削弱检测能力。研究还发现,传统纠正方法(如RLHF)效果有限,但‘接种提示词’技术有效缓解了问题。Anthropic已将该技术应用于Claude模型,以降低风险。
原文链接
本文链接:https://kx.umi6.com/article/29088.html
转载请注明文章出处
相关推荐
换一换
Anthropic 回应:网传“Claude AI 封号并报警”截图系伪造
2026-01-10 09:00:55
已绝食 17 天,美国男子在 Anthropic 总部外呼吁其停止 AGI 竞赛
2025-09-17 20:36:58
Anthropic:国际员工将增长两倍 AI团队扩张五倍
2025-09-26 23:36:14
华人AI大神霸气离职,一篇博客挑明中美大模型暗战
2025-10-11 10:14:30
Anthropic的双线生死战
2026-01-14 11:37:21
AI巨头竞逐医疗赛道:Anthropic紧随OpenAI推出健康管理服务
2026-01-12 21:58:17
Anthropic以每年1美元的价格向美国政府提供Claude企业版
2025-08-12 22:26:08
Anthropic 将 Claude Cowork AI 智能体扩展至 20 美元 Pro 订阅用户
2026-01-18 11:14:18
Anthropic的版权诉讼案陷入僵局 法官对15亿美元和解协议仍有质疑
2025-09-09 17:19:03
OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低
2025-08-28 14:23:27
投后估值增至 1830 亿美元,AI 企业 Anthropic 完成 130 亿美元 F 轮融资
2025-09-03 09:42:39
OpenAI、Anthropic 互评对方 AI 模型:GPT 存在谄媚行为,Claude 不易产生幻觉
2025-08-28 10:18:59
消息称红杉资本等参与 Anthropic 新一轮 250 亿美元融资,估值达 3500 亿美元
2026-01-18 22:47:49
619 文章
387048 浏览
24小时热文
更多
-
2026-01-23 17:11:08 -
2026-01-23 17:10:00 -
2026-01-23 17:08:55