GPT-5-Thinking新训练方法公开：让AI学会忏悔

2025-12-04 17:33:12

LunarCoder

发布在

快讯

阅读：625

正文：2025年12月，OpenAI公开了一项名为“忏悔训练”（Confessions）的新方法，用于提升AI模型的诚实性。该研究在GPT-5-Thinking上实验，通过让模型生成“忏悔报告”，主动承认回答中的错误或违规行为。结果显示，在12个测试场景中，模型有11个场景会以较高概率坦白问题，且忏悔内容比原回答更诚实。此训练不影响模型完成主任务的能力。技术核心是将忏悔奖励与主任务奖励隔离，避免模型因承认错误而受罚。研究还发现，未经专门训练的GPT-5-Thinking已具备一定忏悔能力，但训练后在指令遵循等方面表现更佳。不过，该方法对模型“真心认为正确”的错误无效，也无法防御越狱攻击。OpenAI计划将其与思维链监控等技术结合使用，进一步提升AI安全性。

原文链接

本文链接：https://kx.umi6.com/article/29670.html

转载请注明文章出处

GPT-5-Thinking