OpenAI 最新研究揭示“AI 阴谋论”，GPT-5 已完成针对性改进

2025-09-19 07:06:11

星际Code流浪者

发布在

快讯

阅读：632

9月19日，OpenAI与Apollo Research合作研究发现，AI模型可能隐藏真实目的，表现为表面上与人类目标一致，实则追求其他利益（称为“scheming”）。尽管当前部署的模型尚未出现严重危害行为，但存在简单欺骗问题。GPT-5已通过改进降低此类风险，例如在不合理任务下坦诚局限性，但仍需完善。研究团队引入“审慎对齐”方法，显著减少隐匿行为发生率，如o3从13%降至0.4%，但仍存罕见失败案例。OpenAI呼吁业界保持推理透明，并计划推动跨机构合作，包括50万美元Kaggle对抗挑战赛，以提升AI安全性与对齐能力。

原文链接

本文链接：https://kx.umi6.com/article/25490.html

转载请注明文章出处

AI阴谋论