标题:7B的DeepSeek反超R1满血版,上海AI Lab新成果
新方法使DeepSeek的Qwen数学能力超越R1满血版,7B模型反超671B。
上海AI Lab/清华哈工大/北邮团队的研究由齐弼卿和周伯文领导,探讨了Test-Time Scaling (TTS)在不同策略模型、过程奖励模型及问题难度下的影响。
研究聚焦两大核心问题: 1. 最优TTS方式如何受策略模型、PRM及问题难度影响? 2. TTS在复杂任务上的表现提升幅度及小模型能否超越大模型?
团队在MATH-500和AIME24数据集上实验,使用多个策略模型和PRM进行评估。他们定义了推理问题为马尔可夫决策过程,并测试了Best-of-N、Beam Search和Diverse Verifier Tree Search三种TTS方法。
实验显示,最优TTS方法依赖具体条件。小型策略模型中,搜索方法优于BoN;大型策略模型反之。PRM的选择也显著影响性能。问题难度方面,不同规模模型适用不同的TTS方法。
团队提出奖励感知型最优TTS框架,使计算适应特定模型和提示。3B Llama3.2在MATH-500和AIME24上超越135倍大的Llama3.1-405B,DeepSeek-R1-Distill-Qwen-7B也表现出色。
研究显示TTS在简单任务上优于多数长CoT方法,但在复杂任务上仍有改进空间。未来工作将探索TTS在更多任务上的应用及更高效方法。
原文链接
本文链接:https://kx.umi6.com/article/13194.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek开源新版R1 媲美OpenAI最高o3模型
2025-05-29 05:51:14
人民呼唤DeepSeek!
2025-07-16 12:02:16
黄仁勋已结束中国之行 知情人士称全程未与DeepSeek会面
2025-04-19 11:43:03
492 文章
72247 浏览
24小时热文
更多

-
2025-07-22 00:23:59
-
2025-07-21 22:23:40
-
2025-07-21 21:25:24