标题:OpenAI新模型o4:强化学习驱动的推理革命
OpenAI正在秘密训练新模型o4,其规模介于GPT-4.1和GPT-4.5之间。o4将基于GPT-4.1进行强化学习(RL)训练,这标志着OpenAI策略的重大转变。强化学习不仅提升了模型推理能力,还通过生成CoT解锁了复杂任务的应用潜力,如远程办公和系统设计。
强化学习的核心挑战在于奖励函数的设计。在可验证奖励领域(如编码和数学),RL表现出色,但在不可验证领域(如写作和策略规划),设计恰当的奖励函数更具难度。OpenAI通过合成数据和LLM-Judge解决了这一问题,确保模型更安全且能更好地拒绝有害请求。
o3展示了模型通过工具提升推理能力的重要性。通过特殊Token访问工具,并在需借助工具的问题上训练,模型能更高效地利用外部资源。然而,幻觉问题仍是挑战,模型常因最终结果正确而被奖励,忽视了推理过程的准确性。
强化学习不仅提升模型性能,还可优化自身,形成“RL优化RL”的良性循环。OpenAI和Anthropic都在探索模型自我改进,利用更强模型作为评判员,提升训练效率。这种递归自我改进已在底层工程任务中显现成效,未来将深入新模型架构研究。
强化学习的成功依赖高质量数据和精准的奖励信号。实验室正努力构建更真实的环境,确保奖励函数能精确反映目标。此外,强化学习所需的计算资源正在推动数据中心布局的变化,实验室开始利用闲置算力进行合成数据生成。
OpenAI、Anthropic等公司正探索不同的RL路径,有的聚焦代码性能,有的则分散投资于多领域。Cohere通过批处理技术在多个环境中同步训练单一模型,避免了权重合并带来的性能损失。与此同时,蒸馏技术在小模型开发中展现了显著优势,但大模型仍具有更全面的性能表现。
原文链接
本文链接:https://kx.umi6.com/article/20006.html
转载请注明文章出处
相关推荐
.png)
换一换
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
Altman对话YC总裁:OpenAI的开源模型将远超期待
2025-06-23 10:30:02
OpenAI:正对谷歌 TPU 进行早期测试,暂无大规模部署计划
2025-07-01 10:53:28
544 文章
74240 浏览
24小时热文
更多

-
2025-07-20 17:06:49
-
2025-07-20 16:05:44
-
2025-07-20 16:05:36