标题:7B的DeepSeek反超R1满血版,上海AI Lab新成果
新方法使DeepSeek的Qwen数学能力超越R1满血版,7B模型反超671B。
上海AI Lab/清华哈工大/北邮团队的研究由齐弼卿和周伯文领导,探讨了Test-Time Scaling (TTS)在不同策略模型、过程奖励模型及问题难度下的影响。
研究聚焦两大核心问题: 1. 最优TTS方式如何受策略模型、PRM及问题难度影响? 2. TTS在复杂任务上的表现提升幅度及小模型能否超越大模型?
团队在MATH-500和AIME24数据集上实验,使用多个策略模型和PRM进行评估。他们定义了推理问题为马尔可夫决策过程,并测试了Best-of-N、Beam Search和Diverse Verifier Tree Search三种TTS方法。
实验显示,最优TTS方法依赖具体条件。小型策略模型中,搜索方法优于BoN;大型策略模型反之。PRM的选择也显著影响性能。问题难度方面,不同规模模型适用不同的TTS方法。
团队提出奖励感知型最优TTS框架,使计算适应特定模型和提示。3B Llama3.2在MATH-500和AIME24上超越135倍大的Llama3.1-405B,DeepSeek-R1-Distill-Qwen-7B也表现出色。
研究显示TTS在简单任务上优于多数长CoT方法,但在复杂任务上仍有改进空间。未来工作将探索TTS在更多任务上的应用及更高效方法。
原文链接
本文链接:https://kx.umi6.com/article/13194.html
转载请注明文章出处
相关推荐
换一换
不是接入DeepSeek,就叫AI制药
2026-01-17 16:35:32
DeepSeek又更新了,期待梁文锋“炸场”
2025-08-21 09:28:01
DeepSeek发布Agent Harness相关岗位 或推智能体产品
2026-05-20 16:47:33
六大AI大模型展开美股投资竞赛:重仓英伟达的Deepseek再次领跑
2025-10-28 18:00:23
没有商业模式,是DeepSeek最坚固的「护城河」
2026-01-21 14:10:41
DeepSeek网页版大升级!随后宕机11小时崩上热搜,新模型真的来了
2026-03-30 11:42:07
梁文锋代表DeepSeek,他代表梁文锋
2025-11-16 12:31:32
智谱创始人唐杰谈 DeepSeek:很震撼,开启了“AI 做事”新范式
2026-01-12 09:23:20
腾讯与阿里巴巴洽谈投资DeepSeek 估值超过200亿美元
2026-04-22 19:27:03
DeepSeek成了硅谷最大的“不能说的秘密”
2025-09-23 17:20:46
DeepSeek发布梁文锋署名新论文 开源相关记忆模块Engram
2026-01-13 09:25:44
DeepSeek连更GitHub 华尔街回想起被支配的恐惧
2026-02-24 15:51:36
微软研报称 DeepSeek 在中国 AI 市场份额达 89%,在白俄罗斯达 56%
2026-01-13 16:44:20
820 文章
699315 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41