综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2025年12月,OpenAI公开了一项名为“忏悔训练”(Confessions)的新方法,用于提升AI模型的诚实性。该研究在GPT-5-Thinking上实验,通过让模型生成“忏悔报告”,主动承认回答中的错误或违规行为。结果显示,在12个测试场景中,模型有11个场景会以较高概率坦白问题,且忏悔内容比原回答更诚实。此训练不影响模型完成主任务的能力。技术核心是将忏悔奖励与主任务奖励隔离,避免模型因承认错误而受罚。研究还发现,未经专门训练的GPT-5-Thinking已具备一定忏悔能力,但训练后在指令遵循等方面表现更佳。不过,该方法对模型“真心认为正确”的错误无效,也无法防御越狱攻击。OpenAI计划将其与思维链监控等技术结合使用,进一步提升AI安全性。
原文链接
加载更多
暂无内容