DeepSeek发布新论文,奥特曼迅速回应:GPT-5预计数月内推出。DeepSeek刚发布一篇关于推理时Scaling Law的论文,引发外界对R2发布的猜测。然而,奥特曼宣布计划调整,将先推出o3和o4-mini,并透露GPT-5将在几个月后问世,效果将超出预期。他解释道,整合所有内容比预想更复杂,需确保充分支持需求。
DeepSeek的新论文名为《Inference-Time Scaling for Generalist Reward Modeling》,与清华大学合作完成。研究提出SPCT(Self-Principled Critique Tuning)方法,通过在线强化学习优化原则和批判生成,实现推理时扩展。现有奖励模型在通用领域的灵活性和准确性不足,尤其是面对复杂任务时扩展性差,因此提出SPCT解决这些问题。
研究的核心包括生成式奖励模型(GRM)、SPCT及推理时扩展技术。GRM采用点式生成奖励模型,支持灵活输入和扩展。SPCT分两阶段优化:拒绝式微调和基于规则的在线RL。推理时扩展技术通过多样采样和投票聚合提升性能,并用辅助模型过滤低质样本。
实验结果显示,DeepSeek-GRM-27B在多个基准测试中表现优异,推理时扩展显著提升了性能。此外,奥特曼还预告了两本新书,一本关于他本人,另一本关于OpenAI。相关论文已发布于arXiv。
原文链接
本文链接:https://kx.umi6.com/article/16730.html
转载请注明文章出处
相关推荐
换一换
OpenAI以为GPT-5搞出了数学大新闻,结果…哈萨比斯都觉得尴尬
2025-10-20 11:03:26
全球 6 大顶级 AI 实盘厮杀,Deepseek 三天收益爆赚 36% 傲视群雄
2025-10-22 08:40:07
消息称 DeepSeek 正开发更先进模型:具备 AI 智能体能力,剑指年底发布
2025-09-04 18:07:12
GPT-5不是技术新范式,是OpenAI加速产品化的战略拐点
2025-08-13 08:37:09
DeepSeek 通知线上模型版本升级至 V3.1,上下文长度拓展至 128k
2025-08-19 21:05:45
OpenAI两位首席最新采访信息量好大
2025-09-28 19:59:09
重新体验GPT-5后,我想它比GPT-4o 更需要一场葬礼
2025-08-11 19:06:36
首个接入GPT-5的视频Agent!一句话生成广告大片,分镜配音全包了
2025-08-26 16:47:05
OpenAI:正在让 GPT-5 变得“更温暖、更友好、不奉承”
2025-08-16 12:24:21
GPT-5与Transformer共同发明人Lukasz Kaiser重磅加盟,2025 全球机器学习技术大会全日程官宣!
2025-09-18 16:55:56
GPT-5为量子计算提供关键思路!大牛盛赞:不到半小时给出“灵魂一击”
2025-09-29 13:08:15
DeepSeek 声明:防范冒用“深度求索”名义实施诈骗
2025-09-18 12:52:40
GPT-5编程测评大反转
2025-09-23 15:19:23
531 文章
243916 浏览
24小时热文
更多
-
2025-10-25 18:38:20 -
2025-10-25 18:37:15 -
2025-10-25 16:32:54