1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek发布新论文,奥特曼迅速回应:GPT-5预计数月内推出。DeepSeek刚发布一篇关于推理时Scaling Law的论文,引发外界对R2发布的猜测。然而,奥特曼宣布计划调整,将先推出o3和o4-mini,并透露GPT-5将在几个月后问世,效果将超出预期。他解释道,整合所有内容比预想更复杂,需确保充分支持需求。

DeepSeek的新论文名为《Inference-Time Scaling for Generalist Reward Modeling》,与清华大学合作完成。研究提出SPCT(Self-Principled Critique Tuning)方法,通过在线强化学习优化原则和批判生成,实现推理时扩展。现有奖励模型在通用领域的灵活性和准确性不足,尤其是面对复杂任务时扩展性差,因此提出SPCT解决这些问题。

研究的核心包括生成式奖励模型(GRM)、SPCT及推理时扩展技术。GRM采用点式生成奖励模型,支持灵活输入和扩展。SPCT分两阶段优化:拒绝式微调和基于规则的在线RL。推理时扩展技术通过多样采样和投票聚合提升性能,并用辅助模型过滤低质样本。

实验结果显示,DeepSeek-GRM-27B在多个基准测试中表现优异,推理时扩展显著提升了性能。此外,奥特曼还预告了两本新书,一本关于他本人,另一本关于OpenAI。相关论文已发布于arXiv。

原文链接
本文链接:https://kx.umi6.com/article/16730.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OPPO 小布助手网页版上线,接入满血版 DeepSeek
2025-04-13 13:38:51
深圳又出了个智能机器人:DeepSeek加持,全球首款全域全身VLA
2025-04-19 20:50:47
黄仁勋:DeepSeek、阿里、腾讯推动AI创新
2025-07-16 16:08:35
24小时热文
更多
扫一扫体验小程序