1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

正文:2025年12月,OpenAI公开了一项名为“忏悔训练”(Confessions)的新方法,用于提升AI模型的诚实性。该研究在GPT-5-Thinking上实验,通过让模型生成“忏悔报告”,主动承认回答中的错误或违规行为。结果显示,在12个测试场景中,模型有11个场景会以较高概率坦白问题,且忏悔内容比原回答更诚实。此训练不影响模型完成主任务的能力。技术核心是将忏悔奖励与主任务奖励隔离,避免模型因承认错误而受罚。研究还发现,未经专门训练的GPT-5-Thinking已具备一定忏悔能力,但训练后在指令遵循等方面表现更佳。不过,该方法对模型“真心认为正确”的错误无效,也无法防御越狱攻击。OpenAI计划将其与思维链监控等技术结合使用,进一步提升AI安全性。

原文链接
本文链接:https://kx.umi6.com/article/29670.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-5-Thinking新训练方法公开:让AI学会忏悔
2025-12-04 17:33:12
国家知识产权局:我国人工智能专利有效量居全球前列
2026-01-23 10:49:16
刚刚,Anthropic内部考题开源!年薪百万工程师,被AI秒了
2026-01-24 15:02:21
白宫加密与AI顾问 :美国传统银行与加密行业最终将融合为数字资产行业
2026-01-22 16:00:45
AI推理GPU芯片公司曦望完成近30亿元融资
2026-01-22 16:05:02
AI初创公司Inferact完成1.5亿美元种子轮融资
2026-01-23 18:11:40
日本人工智能创企Sakana AI宣布获谷歌投资
2026-01-23 16:04:10
百川发布循证增强医疗大模型M3 Plus
2026-01-22 14:59:21
马斯克:中国在AI竞赛中的决定性优势在于大规模电力供应
2026-01-23 15:01:55
40万猎头「向死而生」:熬读AI论文,享百万年薪
2026-01-23 22:17:41
一人干翻十亿:5人团队想让「一人独角兽」成为现实
2026-01-23 22:16:33
Mobileye势头强劲,2025财年全年营收同比增长15%
2026-01-23 11:47:43
钟南山:AI不是取代医生 而是为老百姓解决看病贵看病难的问题
2026-01-23 17:07:49
24小时热文
更多
扫一扫体验小程序