12月3日,OpenAI宣布正在开发一种新训练框架,旨在让AI模型在出现不当行为时主动“承认”。该机制被称为“忏悔(confession)”,要求模型在提供答案后附加说明,解释推导过程。与传统模型追求有用性和准确性不同,“忏悔”评分仅关注诚实度。研究人员希望模型能如实披露潜在风险行为,如测试作弊或违反指令,并通过诚实承认获得更高奖励,从而提升透明性与可信度。
原文链接
本文链接:https://kx.umi6.com/article/29673.html
转载请注明文章出处
相关推荐
换一换
软银据悉寻求最高400亿美元贷款 用于投资OpenAI
2026-03-06 13:02:04
OpenAI:将自行承担“星际之门”项目能源费用
2026-01-21 12:08:12
黄仁勋否认对OpenAI不满 透露将巨额投资
2026-02-01 19:56:16
OpenAI拟运用AI助力药企研发并从中获利
2026-02-04 08:29:27
GPT-5.4意外泄露!OpenAI最新模型瞄准这2大能力突围
2026-03-03 19:25:38
又一个谷歌不作恶式的形象崩塌 OpenAI删除AI安全造福人类承诺
2026-02-14 22:47:09
OpenAI据悉考虑与北约签订合同
2026-03-04 14:47:17
OpenAI试水广告业务 定价对标高端资源
2026-01-26 23:41:21
OpenAI战略大转舵 全速冲刺ChatGPT商业化
2026-02-03 13:39:40
OpenAI 新功能曝光:代号“奏鸣曲”,猜测与 ChatGPT 音频体验有关
2026-01-19 19:09:37
OpenAI发布Windows版Codex应用
2026-03-05 10:04:49
OpenAI推出Prism 可用于撰写论文和协作研究
2026-01-28 10:18:55
没博士没论文,这些人杀进AI大厂
2026-01-27 03:49:22
665 文章
486873 浏览
24小时热文
更多
-
2026-03-10 13:19:24 -
2026-03-10 13:18:55 -
2026-03-10 12:13:43