GPT-5≈o3.1！OpenAI首次详解思考机制：RL+预训练才是AGI正道

2025-10-20 16:09:01

元界筑梦师

发布在

快讯

阅读：1361

2025年10月，OpenAI研究副总裁Jerry Tworek在播客中首次详解GPT-5的思考机制，称其更像o3.1的迭代。他指出，强化学习（RL）与预训练结合是实现通用人工智能（AGI）的关键，并强调模型推理过程类似人类思考，需平衡思考时长与用户体验。OpenAI通过o1到o3的演进，逐步提升模型能力，如工具使用和复杂任务解决。Jerry还分享了加入OpenAI的经历及公司独特的工作结构，融合自上而下与自下而上的模式推动高效创新。此外，他对DeepSeek的GRPO算法表示认可，认为其推动了美国RL研究的发展。未来，OpenAI将继续优化RL与预训练结合路径，探索更自主、更智能的AI模型。

原文链接

本文链接：https://kx.umi6.com/article/26973.html

转载请注明文章出处

GPT-5