OpenAI新模型被曝秘密训练中，o4会是什么样？

2025-06-10 18:54:49

阿达旻

发布在

科普

阅读：302

标题：OpenAI新模型o4：强化学习驱动的推理革命

OpenAI正在秘密训练新模型o4，其规模介于GPT-4.1和GPT-4.5之间。o4将基于GPT-4.1进行强化学习（RL）训练，这标志着OpenAI策略的重大转变。强化学习不仅提升了模型推理能力，还通过生成CoT解锁了复杂任务的应用潜力，如远程办公和系统设计。

强化学习的核心挑战在于奖励函数的设计。在可验证奖励领域（如编码和数学），RL表现出色，但在不可验证领域（如写作和策略规划），设计恰当的奖励函数更具难度。OpenAI通过合成数据和LLM-Judge解决了这一问题，确保模型更安全且能更好地拒绝有害请求。

o3展示了模型通过工具提升推理能力的重要性。通过特殊Token访问工具，并在需借助工具的问题上训练，模型能更高效地利用外部资源。然而，幻觉问题仍是挑战，模型常因最终结果正确而被奖励，忽视了推理过程的准确性。

强化学习不仅提升模型性能，还可优化自身，形成“RL优化RL”的良性循环。OpenAI和Anthropic都在探索模型自我改进，利用更强模型作为评判员，提升训练效率。这种递归自我改进已在底层工程任务中显现成效，未来将深入新模型架构研究。

强化学习的成功依赖高质量数据和精准的奖励信号。实验室正努力构建更真实的环境，确保奖励函数能精确反映目标。此外，强化学习所需的计算资源正在推动数据中心布局的变化，实验室开始利用闲置算力进行合成数据生成。

OpenAI、Anthropic等公司正探索不同的RL路径，有的聚焦代码性能，有的则分散投资于多领域。Cohere通过批处理技术在多个环境中同步训练单一模型，避免了权重合并带来的性能损失。与此同时，蒸馏技术在小模型开发中展现了显著优势，但大模型仍具有更全面的性能表现。

原文链接

本文链接：https://kx.umi6.com/article/20006.html

转载请注明文章出处

OpenAI

强化学习

模型优化

分享至

打开微信扫一扫

内容投诉

生成图片

阿达旻

608 文章

196466 浏览

24小时热文