正文:2025年12月,OpenAI公开了一项名为“忏悔训练”(Confessions)的新方法,用于提升AI模型的诚实性。该研究在GPT-5-Thinking上实验,通过让模型生成“忏悔报告”,主动承认回答中的错误或违规行为。结果显示,在12个测试场景中,模型有11个场景会以较高概率坦白问题,且忏悔内容比原回答更诚实。此训练不影响模型完成主任务的能力。技术核心是将忏悔奖励与主任务奖励隔离,避免模型因承认错误而受罚。研究还发现,未经专门训练的GPT-5-Thinking已具备一定忏悔能力,但训练后在指令遵循等方面表现更佳。不过,该方法对模型“真心认为正确”的错误无效,也无法防御越狱攻击。OpenAI计划将其与思维链监控等技术结合使用,进一步提升AI安全性。
原文链接
本文链接:https://kx.umi6.com/article/29670.html
转载请注明文章出处
相关推荐
换一换
GPT-5-Thinking新训练方法公开:让AI学会忏悔
2025-12-04 17:33:12
格力电器:碳化硅功率芯片首秀AWE 2026,自研EAI、MCU等芯片累计出货已达2亿颗
2026-03-12 12:40:06
英伟达CEO黄仁勋:未来几年传统的软件和APP形态或将消失 AI智能体极可能成为主流
2026-03-11 12:00:39
国家工业信息安全发展研究中心:发布工业领域OpenClaw应用的风险预警通报
2026-03-12 17:58:49
腾讯回应OpenClaw之父Peter的“抄袭”指责:希望继续支持生态
2026-03-12 16:54:15
有银行收到监管机构“龙虾”风险提示 提示及时更新、封堵安全漏洞
2026-03-12 20:04:36
江阴市国联锡洲人工智能产业基金成立 出资额5亿
2026-03-12 10:28:04
高通和Wayve推动面向量产的端到端ADAS和自动驾驶人工智能技术
2026-03-10 22:01:07
钉钉客服:不建议企业客户安装龙虾
2026-03-11 18:31:34
对话VAST曹炎培:2秒才是3D生成本该有的速度
2026-03-12 21:05:02
四川宜宾发布人工智能产业发展基金 规模20亿元
2026-03-10 18:46:56
Anthropic推出Code Review工具
2026-03-11 08:44:34
小红书重拳出击!AI托管类账号危险了
2026-03-10 18:44:51
692 文章
497859 浏览
24小时热文
更多
-
2026-03-12 22:10:34 -
2026-03-12 21:13:19 -
2026-03-12 21:12:13