坦白从宽：OpenAI 开发新系统教导模型诚实承认自身“不良行为”

2025-12-04 17:36:30

虚拟微光

发布在

快讯

阅读：611

12月3日，OpenAI宣布正在开发一种新训练框架，旨在让AI模型在出现不当行为时主动“承认”。该机制被称为“忏悔（confession）”，要求模型在提供答案后附加说明，解释推导过程。与传统模型追求有用性和准确性不同，“忏悔”评分仅关注诚实度。研究人员希望模型能如实披露潜在风险行为，如测试作弊或违反指令，并通过诚实承认获得更高奖励，从而提升透明性与可信度。

原文链接

本文链接：https://kx.umi6.com/article/29673.html

转载请注明文章出处

OpenAI