自我提升 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

大模型“自学”后能力反下降，Llama/Mistral都没逃过

标题：大模型自我提升后能力反降：LLaMA和Mistral受挫研究发现，AI在常识理解、数学推理和代码生成等任务中，经历多轮自我提升后，可能出现“自我提升逆转”现象。即使如LLaMA-2-7B、Mistral-7B和LLaMA-8B这样的大模型，也可能遭遇能力倒退。这类似学生过度刷题导致实际解题能...

原文链接

数码游侠

07-19 17:18:40

AI能力下降

自我提升逆转

迭代后训练

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-4批评GPT-4实现「自我提升」，OpenAI前超级对齐团队又一力作被公开

OpenAI近期推出CriticGPT，作为GPT-4的辅助工具，用于检测生成代码中的错误，标志着模型自我监督的新尝试。CriticGPT是用GPT-4训练的，通过捕获并纠正GPT-4的代码bug，试图缓解RLHF对齐过程中的人力需求。尽管CriticGPT与RLHF相辅相成，但其训练数据仍依赖于人为引入的错误，以提高模型的反馈质量。实验结果显示，CriticGPT在批评任务上超过人类，特别是在发现预设错误方面，但仍面临幻觉和复杂任务评估的挑战。研究团队希望此方法能为未来的模型训练提供新的视角，特别是在长形式任务的监督方面。

原文链接