标题:ChatGPT后训练方法被OpenAI离职联创公开,PPT全网转~
正文: 离开OpenAI后,两位前联合创始人John Schulman和Barret Zoph公开了ChatGPT后训练方法的PPT。John Schulman曾是OpenAI后训练共同负责人,Barret Zoph也曾担任后训练研究VP。
John Schulman在推特上表示,他们在斯坦福做了一场关于后训练及ChatGPT经验的演讲,但未被录制。他们希望通过网络找到演讲录音或视频。
有网友证实,演讲质量很高。有人希望了解更多关于训练后阶段的进展,如推理模型、DeepSeek RL等。
PPT中介绍了后训练阶段的目标和具体步骤,包括监督微调(SFT)、奖励模型(RM)训练和强化学习(RL)。此外,还回顾了ChatGPT的发展历程,展示了模型功能的演变。
John Schulman和Barret Zoph还讨论了在功能扩展和公司规模增长的背景下如何整合变化,包括通过主线模型设置来降低风险。他们提到了一些挑战,如模型生成文本时的拼写错误和过度拒绝问题,并提出了解决方案。
他们还探讨了模型偏见、虚假内容生成等问题,以及如何获取高质量人类反馈。最后,他们推荐了一些关于后训练的论文和博客。
John Schulman和Barret Zoph离开OpenAI后,加入了OpenAI前CTO Mira Murati的新创业项目Thinking Machines Lab。
原文链接
本文链接:https://kx.umi6.com/article/13744.html
转载请注明文章出处
相关推荐
换一换
OpenAI和NextDC计划斥资46亿美元在澳大利亚悉尼建设数据中心
2025-12-05 11:28:34
OpenAI 全面上线“廉价版”ChatGPT Go 订阅方案:每月 8 美元,将包含广告
2026-01-17 08:17:48
OpenAI正在物色新的风险防范主管
2025-12-29 15:35:54
OpenAI最快将于下周二发布GPT-5.2
2025-12-06 07:18:55
软银集团完成对OpenAI的投资承诺
2025-12-31 09:09:06
DeepMind CEO:对OpenAI引入广告感到惊讶 Gemini目前没这种计划
2026-01-23 15:00:51
迪士尼官宣 10 亿美元投资 OpenAI,允许 Sora 生成米老鼠等角色视频
2025-12-11 23:15:43
OpenAI任命英国前财长奥斯本负责“OpenAI for Countries”项目
2025-12-17 08:30:53
OpenAI加码音频人工智能研发 备战首款硬件设备
2026-01-01 23:43:33
OpenAI,65倍,8300亿美元
2025-12-22 10:40:37
谷歌 Gemini 3 反击战:OpenAI GPT-5.2 被曝提前至下周发布,从新功能转向速度与稳定性提升
2025-12-06 09:19:14
OpenAI 奥尔特曼:高看了谷歌 Gemini 3,明年 1 月结束“红色警报”
2025-12-12 08:38:54
姚班传奇陈立杰入职OpenAI!16岁保送清华,30岁拿下UC伯克利助理教授
2026-01-15 15:40:32
674 文章
444192 浏览
24小时热文
更多
-
2026-01-23 18:11:40 -
2026-01-23 18:10:36 -
2026-01-23 18:09:30