1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:7B的DeepSeek反超R1满血版,上海AI Lab新成果

新方法使DeepSeek的Qwen数学能力超越R1满血版,7B模型反超671B。

上海AI Lab/清华哈工大/北邮团队的研究由齐弼卿和周伯文领导,探讨了Test-Time Scaling (TTS)在不同策略模型、过程奖励模型及问题难度下的影响。

研究聚焦两大核心问题: 1. 最优TTS方式如何受策略模型、PRM及问题难度影响? 2. TTS在复杂任务上的表现提升幅度及小模型能否超越大模型?

团队在MATH-500和AIME24数据集上实验,使用多个策略模型和PRM进行评估。他们定义了推理问题为马尔可夫决策过程,并测试了Best-of-N、Beam Search和Diverse Verifier Tree Search三种TTS方法。

实验显示,最优TTS方法依赖具体条件。小型策略模型中,搜索方法优于BoN;大型策略模型反之。PRM的选择也显著影响性能。问题难度方面,不同规模模型适用不同的TTS方法。

团队提出奖励感知型最优TTS框架,使计算适应特定模型和提示。3B Llama3.2在MATH-500和AIME24上超越135倍大的Llama3.1-405B,DeepSeek-R1-Distill-Qwen-7B也表现出色。

研究显示TTS在简单任务上优于多数长CoT方法,但在复杂任务上仍有改进空间。未来工作将探索TTS在更多任务上的应用及更高效方法。

原文链接
本文链接:https://kx.umi6.com/article/13194.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
微软研报称 DeepSeek 在中国 AI 市场份额达 89%,在白俄罗斯达 56%
2026-01-13 16:44:20
DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能
2026-02-27 16:53:38
美国AI巨头炮轰DeepSeek 只为给五角大楼递投名状
2026-02-26 07:32:42
DeepSeek线上模型升级:当前版本号 DeepSeek-V3.1-Terminus
2025-09-22 21:05:30
DeepSeek新模型上线
2025-09-30 11:25:43
鏖战2025年,大模型围着开源转
2025-12-25 18:55:44
DeepSeek:已在平台内对 AI 生成合成内容添加标识,用户不得恶意删除
2025-09-01 18:24:35
出圈一周年,DeepSeek的变与不变
2026-01-16 15:50:22
DeepSeek发布新论文提出更为高效的AI开发方法
2026-01-02 18:32:56
DeepSeek 声明:防范冒用“深度求索”名义实施诈骗
2025-09-18 12:52:40
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
被曝蒸馏DeepSeek还造假!欧版OpenAI塌方了
2025-08-14 16:57:45
半年不到 DeepSeek真已跌落神坛吗!我看未必 深扒背后原因
2025-07-24 13:06:29
24小时热文
更多
扫一扫体验小程序