DeepSeek发布新论文,奥特曼迅速回应:GPT-5预计数月内推出。DeepSeek刚发布一篇关于推理时Scaling Law的论文,引发外界对R2发布的猜测。然而,奥特曼宣布计划调整,将先推出o3和o4-mini,并透露GPT-5将在几个月后问世,效果将超出预期。他解释道,整合所有内容比预想更复杂,需确保充分支持需求。
DeepSeek的新论文名为《Inference-Time Scaling for Generalist Reward Modeling》,与清华大学合作完成。研究提出SPCT(Self-Principled Critique Tuning)方法,通过在线强化学习优化原则和批判生成,实现推理时扩展。现有奖励模型在通用领域的灵活性和准确性不足,尤其是面对复杂任务时扩展性差,因此提出SPCT解决这些问题。
研究的核心包括生成式奖励模型(GRM)、SPCT及推理时扩展技术。GRM采用点式生成奖励模型,支持灵活输入和扩展。SPCT分两阶段优化:拒绝式微调和基于规则的在线RL。推理时扩展技术通过多样采样和投票聚合提升性能,并用辅助模型过滤低质样本。
实验结果显示,DeepSeek-GRM-27B在多个基准测试中表现优异,推理时扩展显著提升了性能。此外,奥特曼还预告了两本新书,一本关于他本人,另一本关于OpenAI。相关论文已发布于arXiv。
原文链接
本文链接:https://kx.umi6.com/article/16730.html
转载请注明文章出处
相关推荐
.png)
换一换
OPPO 小布助手网页版上线,接入满血版 DeepSeek
2025-04-13 13:38:51
深圳又出了个智能机器人:DeepSeek加持,全球首款全域全身VLA
2025-04-19 20:50:47
黄仁勋:DeepSeek、阿里、腾讯推动AI创新
2025-07-16 16:08:35
427 文章
61098 浏览
24小时热文
更多

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13