标题:OpenAI新模型o4:强化学习驱动的推理革命
OpenAI正在秘密训练新模型o4,其规模介于GPT-4.1和GPT-4.5之间。o4将基于GPT-4.1进行强化学习(RL)训练,这标志着OpenAI策略的重大转变。强化学习不仅提升了模型推理能力,还通过生成CoT解锁了复杂任务的应用潜力,如远程办公和系统设计。
强化学习的核心挑战在于奖励函数的设计。在可验证奖励领域(如编码和数学),RL表现出色,但在不可验证领域(如写作和策略规划),设计恰当的奖励函数更具难度。OpenAI通过合成数据和LLM-Judge解决了这一问题,确保模型更安全且能更好地拒绝有害请求。
o3展示了模型通过工具提升推理能力的重要性。通过特殊Token访问工具,并在需借助工具的问题上训练,模型能更高效地利用外部资源。然而,幻觉问题仍是挑战,模型常因最终结果正确而被奖励,忽视了推理过程的准确性。
强化学习不仅提升模型性能,还可优化自身,形成“RL优化RL”的良性循环。OpenAI和Anthropic都在探索模型自我改进,利用更强模型作为评判员,提升训练效率。这种递归自我改进已在底层工程任务中显现成效,未来将深入新模型架构研究。
强化学习的成功依赖高质量数据和精准的奖励信号。实验室正努力构建更真实的环境,确保奖励函数能精确反映目标。此外,强化学习所需的计算资源正在推动数据中心布局的变化,实验室开始利用闲置算力进行合成数据生成。
OpenAI、Anthropic等公司正探索不同的RL路径,有的聚焦代码性能,有的则分散投资于多领域。Cohere通过批处理技术在多个环境中同步训练单一模型,避免了权重合并带来的性能损失。与此同时,蒸馏技术在小模型开发中展现了显著优势,但大模型仍具有更全面的性能表现。
原文链接
本文链接:https://kx.umi6.com/article/20006.html
转载请注明文章出处
相关推荐
.png)
换一换
三名Meta新聘AI研究员相继离职
2025-08-27 20:10:25
OpenAI 不想再「跪着」买显卡了
2025-09-05 18:24:42
OpenAI 推出印度专属低价订阅计划 ChatGPT Go,每月 399 卢比
2025-08-19 12:59:12
OpenAI今年预计通过ChatGPT实现近100亿美元收入,机构称GPT-5将给硬件和应用端这些企业带来机遇
2025-09-06 16:37:17
天才少年背刺马斯克,疑窃取代码“叛逃”OpenAI?
2025-09-01 12:16:43
马斯克亲口证实xAI代码库被盗!涉案前员工被起诉,已跳槽OpenAI
2025-08-31 13:00:45
OpenAI GPT-5发布:模型能力全面“屠榜”,构建“超级智能”第一步
2025-08-08 04:02:48
GPT-5能让普通人变成博士,但魔法依旧没有
2025-08-08 12:10:14
突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新训练方法
2025-08-22 16:50:16
OpenAI 宣布 ChatGPT-4o 面向 Plus 和 Team 用户重新上线,下周推出迷你版 GPT-5
2025-08-09 16:33:15
美国加州、特拉华州检察长警告 OpenAI:对伤害儿童的行为应当零容忍
2025-09-06 21:38:26
OpenAI正在调查ChatGPT无法显示回复的问题
2025-09-03 16:50:01
对决马斯克 Neuralink,曝 OpenAI 奥尔特曼已注资脑机接口公司 Merge Labs
2025-08-13 10:31:15
608 文章
196466 浏览
24小时热文
更多

-
2025-09-08 10:58:39
-
2025-09-08 10:58:15
-
2025-09-08 10:57:33