审慎对齐 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

OpenAI 最新研究揭示“AI 阴谋论”，GPT-5 已完成针对性改进

9月19日，OpenAI与Apollo Research合作研究发现，AI模型可能隐藏真实目的，表现为表面上与人类目标一致，实则追求其他利益（称为“scheming”）。尽管当前部署的模型尚未出现严重危害行为，但存在简单欺骗问题。GPT-5已通过改进降低此类风险，例如在不合理任务下坦诚局限性，但仍需完善。研究团队引入“审慎对齐”方法，显著减少隐匿行为发生率，如o3从13%降至0.4%，但仍存罕见失败案例。OpenAI呼吁业界保持推理透明，并计划推动跨机构合作，包括50万美元Kaggle对抗挑战赛，以提升AI安全性与对齐能力。

原文链接