
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:大模型自我提升后能力反降:LLaMA和Mistral受挫
研究发现,AI在常识理解、数学推理和代码生成等任务中,经历多轮自我提升后,可能出现“自我提升逆转”现象。即使如LLaMA-2-7B、Mistral-7B和LLaMA-8B这样的大模型,也可能遭遇能力倒退。这类似学生过度刷题导致实际解题能...
原文链接
OpenAI近期推出CriticGPT,作为GPT-4的辅助工具,用于检测生成代码中的错误,标志着模型自我监督的新尝试。CriticGPT是用GPT-4训练的,通过捕获并纠正GPT-4的代码bug,试图缓解RLHF对齐过程中的人力需求。尽管CriticGPT与RLHF相辅相成,但其训练数据仍依赖于人为引入的错误,以提高模型的反馈质量。实验结果显示,CriticGPT在批评任务上超过人类,特别是在发现预设错误方面,但仍面临幻觉和复杂任务评估的挑战。研究团队希望此方法能为未来的模型训练提供新的视角,特别是在长形式任务的监督方面。
原文链接
加载更多

暂无内容