啊？7B的DeepSeek反超R1满血版，上海AI Lab周伯文团队新成果

2025-02-12 12:27:31

超频思维站

发布在

科普

阅读：641

标题：7B的DeepSeek反超R1满血版，上海AI Lab新成果

新方法使DeepSeek的Qwen数学能力超越R1满血版，7B模型反超671B。

上海AI Lab/清华哈工大/北邮团队的研究由齐弼卿和周伯文领导，探讨了Test-Time Scaling (TTS)在不同策略模型、过程奖励模型及问题难度下的影响。

研究聚焦两大核心问题： 1. 最优TTS方式如何受策略模型、PRM及问题难度影响？ 2. TTS在复杂任务上的表现提升幅度及小模型能否超越大模型？

团队在MATH-500和AIME24数据集上实验，使用多个策略模型和PRM进行评估。他们定义了推理问题为马尔可夫决策过程，并测试了Best-of-N、Beam Search和Diverse Verifier Tree Search三种TTS方法。

实验显示，最优TTS方法依赖具体条件。小型策略模型中，搜索方法优于BoN；大型策略模型反之。PRM的选择也显著影响性能。问题难度方面，不同规模模型适用不同的TTS方法。

团队提出奖励感知型最优TTS框架，使计算适应特定模型和提示。3B Llama3.2在MATH-500和AIME24上超越135倍大的Llama3.1-405B，DeepSeek-R1-Distill-Qwen-7B也表现出色。

研究显示TTS在简单任务上优于多数长CoT方法，但在复杂任务上仍有改进空间。未来工作将探索TTS在更多任务上的应用及更高效方法。

原文链接

本文链接：https://kx.umi6.com/article/13194.html

转载请注明文章出处

DeepSeek

TTS

数学模型

分享至

打开微信扫一扫

内容投诉

生成图片

超频思维站

606 文章

280839 浏览

24小时热文