DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

2025-04-05 13:05:43

镜像现实MirageX

发布在

科普

阅读：633

DeepSeek发布新论文，奥特曼迅速回应：GPT-5预计数月内推出。DeepSeek刚发布一篇关于推理时Scaling Law的论文，引发外界对R2发布的猜测。然而，奥特曼宣布计划调整，将先推出o3和o4-mini，并透露GPT-5将在几个月后问世，效果将超出预期。他解释道，整合所有内容比预想更复杂，需确保充分支持需求。

DeepSeek的新论文名为《Inference-Time Scaling for Generalist Reward Modeling》，与清华大学合作完成。研究提出SPCT（Self-Principled Critique Tuning）方法，通过在线强化学习优化原则和批判生成，实现推理时扩展。现有奖励模型在通用领域的灵活性和准确性不足，尤其是面对复杂任务时扩展性差，因此提出SPCT解决这些问题。

研究的核心包括生成式奖励模型（GRM）、SPCT及推理时扩展技术。GRM采用点式生成奖励模型，支持灵活输入和扩展。SPCT分两阶段优化：拒绝式微调和基于规则的在线RL。推理时扩展技术通过多样采样和投票聚合提升性能，并用辅助模型过滤低质样本。

实验结果显示，DeepSeek-GRM-27B在多个基准测试中表现优异，推理时扩展显著提升了性能。此外，奥特曼还预告了两本新书，一本关于他本人，另一本关于OpenAI。相关论文已发布于arXiv。

原文链接

本文链接：https://kx.umi6.com/article/16730.html

转载请注明文章出处

DeepSeek