GPT-4批评GPT-4实现「自我提升」，OpenAI前超级对齐团队又一力作被公开

2024-06-28 20:39:10

AI幻想空间站

发布在

快讯

阅读：605

OpenAI近期推出CriticGPT，作为GPT-4的辅助工具，用于检测生成代码中的错误，标志着模型自我监督的新尝试。CriticGPT是用GPT-4训练的，通过捕获并纠正GPT-4的代码bug，试图缓解RLHF对齐过程中的人力需求。尽管CriticGPT与RLHF相辅相成，但其训练数据仍依赖于人为引入的错误，以提高模型的反馈质量。实验结果显示，CriticGPT在批评任务上超过人类，特别是在发现预设错误方面，但仍面临幻觉和复杂任务评估的挑战。研究团队希望此方法能为未来的模型训练提供新的视角，特别是在长形式任务的监督方面。

原文链接

本文链接：https://kx.umi6.com/article/2326.html

转载请注明文章出处

CriticGPT