1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
大模型“自学”后能力反下降,Llama/Mistral都没逃过
标题:大模型自我提升后能力反降:LLaMA和Mistral受挫 研究发现,AI在常识理解、数学推理和代码生成等任务中,经历多轮自我提升后,可能出现“自我提升逆转”现象。即使如LLaMA-2-7B、Mistral-7B和LLaMA-8B这样的大模型,也可能遭遇能力倒退。这类似学生过度刷题导致实际解题能...
数码游侠
07-19 17:18:40
AI能力下降
自我提升逆转
迭代后训练
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4批评GPT-4实现「自我提升」,OpenAI前超级对齐团队又一力作被公开
OpenAI近期推出CriticGPT,作为GPT-4的辅助工具,用于检测生成代码中的错误,标志着模型自我监督的新尝试。CriticGPT是用GPT-4训练的,通过捕获并纠正GPT-4的代码bug,试图缓解RLHF对齐过程中的人力需求。尽管CriticGPT与RLHF相辅相成,但其训练数据仍依赖于人为引入的错误,以提高模型的反馈质量。实验结果显示,CriticGPT在批评任务上超过人类,特别是在发现预设错误方面,但仍面临幻觉和复杂任务评估的挑战。研究团队希望此方法能为未来的模型训练提供新的视角,特别是在长形式任务的监督方面。
AI幻想空间站
06-28 20:39:10
CriticGPT
RLHF
自我提升
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序