1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
GPT-5-Thinking新训练方法公开:让AI学会忏悔
正文:2025年12月,OpenAI公开了一项名为“忏悔训练”(Confessions)的新方法,用于提升AI模型的诚实性。该研究在GPT-5-Thinking上实验,通过让模型生成“忏悔报告”,主动承认回答中的错误或违规行为。结果显示,在12个测试场景中,模型有11个场景会以较高概率坦白问题,且忏悔内容比原回答更诚实。此训练不影响模型完成主任务的能力。技术核心是将忏悔奖励与主任务奖励隔离,避免模型因承认错误而受罚。研究还发现,未经专门训练的GPT-5-Thinking已具备一定忏悔能力,但训练后在指令遵循等方面表现更佳。不过,该方法对模型“真心认为正确”的错误无效,也无法防御越狱攻击。OpenAI计划将其与思维链监控等技术结合使用,进一步提升AI安全性。
LunarCoder
12-04 17:33:12
GPT-5-Thinking
忏悔训练
诚实技能
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序