DeepSeek发布新论文,奥特曼迅速回应:GPT-5预计数月内推出。DeepSeek刚发布一篇关于推理时Scaling Law的论文,引发外界对R2发布的猜测。然而,奥特曼宣布计划调整,将先推出o3和o4-mini,并透露GPT-5将在几个月后问世,效果将超出预期。他解释道,整合所有内容比预想更复杂,需确保充分支持需求。
DeepSeek的新论文名为《Inference-Time Scaling for Generalist Reward Modeling》,与清华大学合作完成。研究提出SPCT(Self-Principled Critique Tuning)方法,通过在线强化学习优化原则和批判生成,实现推理时扩展。现有奖励模型在通用领域的灵活性和准确性不足,尤其是面对复杂任务时扩展性差,因此提出SPCT解决这些问题。
研究的核心包括生成式奖励模型(GRM)、SPCT及推理时扩展技术。GRM采用点式生成奖励模型,支持灵活输入和扩展。SPCT分两阶段优化:拒绝式微调和基于规则的在线RL。推理时扩展技术通过多样采样和投票聚合提升性能,并用辅助模型过滤低质样本。
实验结果显示,DeepSeek-GRM-27B在多个基准测试中表现优异,推理时扩展显著提升了性能。此外,奥特曼还预告了两本新书,一本关于他本人,另一本关于OpenAI。相关论文已发布于arXiv。
原文链接
本文链接:https://kx.umi6.com/article/16730.html
转载请注明文章出处
相关推荐
换一换
真·博士水平!GPT-5首次给出第四矩定理显式收敛率,数学教授只点拨了一下
2025-09-10 17:40:34
GPT-5“让人失望”,AI“撞墙”了吗?
2025-08-17 19:40:29
DeepSeek 线上模型升级至 V3.1-Terminus 版本,改进语言一致性及 Agent 能力
2025-09-22 21:02:17
梁文锋代表DeepSeek,他代表梁文锋
2025-11-16 12:31:32
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
2025-10-31 13:33:18
全球 6 大顶级 AI 实盘厮杀,Deepseek 三天收益爆赚 36% 傲视群雄
2025-10-22 08:40:07
DeepSeek 声明:防范冒用“深度求索”名义实施诈骗
2025-09-18 12:52:40
DeepSeek 出现服务故障:网页 / API 性能异常,已进行修复
2025-11-25 16:59:50
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
2025-08-21 13:31:42
DeepSeek 开源新模型 V3.1:约 685B 参数,上下文长度拓展至 128K
2025-08-20 10:11:16
OpenAI 今年推出 GPT - 6?员工否认
2025-10-19 07:43:54
7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进
2025-09-02 17:34:44
首个接入GPT-5的视频Agent!一句话生成广告大片,分镜配音全包了
2025-08-26 16:47:05
592 文章
353912 浏览
24小时热文
更多
-
2025-12-31 22:44:56 -
2025-12-31 22:43:50 -
2025-12-31 22:42:42