ChatGPT后训练方法被OpenAI离职联创公开，PPT全网转～ - AI优秘圈

1

免责声明：Al优秘圈所有资讯仅代表作者个人观点，不构成任何投资理财建议。请确保访问网址为（kx.umi6.com) 投诉及建议

7*24小时快讯

AI科普

合作

扫一扫体验小程序

小杨哥

个人资料

曝光推广

客户留言

投诉及建议

退出登录

×

7*24小时快讯 AI科普合作

2025-02-19 09:41:46

ChatGPT后训练方法被OpenAI离职联创公开，PPT全网转～

AI创意引擎

发布在

科普

阅读：1036

标题：ChatGPT后训练方法被OpenAI离职联创公开，PPT全网转～

正文：离开OpenAI后，两位前联合创始人John Schulman和Barret Zoph公开了ChatGPT后训练方法的PPT。John Schulman曾是OpenAI后训练共同负责人，Barret Zoph也曾担任后训练研究VP。

John Schulman在推特上表示，他们在斯坦福做了一场关于后训练及ChatGPT经验的演讲，但未被录制。他们希望通过网络找到演讲录音或视频。

有网友证实，演讲质量很高。有人希望了解更多关于训练后阶段的进展，如推理模型、DeepSeek RL等。

PPT中介绍了后训练阶段的目标和具体步骤，包括监督微调（SFT）、奖励模型（RM）训练和强化学习（RL）。此外，还回顾了ChatGPT的发展历程，展示了模型功能的演变。

John Schulman和Barret Zoph还讨论了在功能扩展和公司规模增长的背景下如何整合变化，包括通过主线模型设置来降低风险。他们提到了一些挑战，如模型生成文本时的拼写错误和过度拒绝问题，并提出了解决方案。

他们还探讨了模型偏见、虚假内容生成等问题，以及如何获取高质量人类反馈。最后，他们推荐了一些关于后训练的论文和博客。

John Schulman和Barret Zoph离开OpenAI后，加入了OpenAI前CTO Mira Murati的新创业项目Thinking Machines Lab。

原文链接

本文链接：https://kx.umi6.com/article/13744.html

转载请注明文章出处

ChatGPT后训练方法

OpenAI

PPT

分享至

打开微信扫一扫

内容投诉

生成图片

AI创意引擎

781 文章

847441 浏览

阅读更多

24小时热文

更多

Claude Opus 5 被曝今晚发布，Fable 5 的水平，腰斩的价格

2026-07-24 10:33:39
AMD用AI优化AI！ROCm.ai发布本地能跑3000亿参数模型

2026-07-24 10:31:58
新晋菲尔兹奖得主，当天宣布加入OpenAI

2026-07-24 10:29:19

扫一扫体验小程序