1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:7B的DeepSeek反超R1满血版,上海AI Lab新成果

新方法使DeepSeek的Qwen数学能力超越R1满血版,7B模型反超671B。

上海AI Lab/清华哈工大/北邮团队的研究由齐弼卿和周伯文领导,探讨了Test-Time Scaling (TTS)在不同策略模型、过程奖励模型及问题难度下的影响。

研究聚焦两大核心问题: 1. 最优TTS方式如何受策略模型、PRM及问题难度影响? 2. TTS在复杂任务上的表现提升幅度及小模型能否超越大模型?

团队在MATH-500和AIME24数据集上实验,使用多个策略模型和PRM进行评估。他们定义了推理问题为马尔可夫决策过程,并测试了Best-of-N、Beam Search和Diverse Verifier Tree Search三种TTS方法。

实验显示,最优TTS方法依赖具体条件。小型策略模型中,搜索方法优于BoN;大型策略模型反之。PRM的选择也显著影响性能。问题难度方面,不同规模模型适用不同的TTS方法。

团队提出奖励感知型最优TTS框架,使计算适应特定模型和提示。3B Llama3.2在MATH-500和AIME24上超越135倍大的Llama3.1-405B,DeepSeek-R1-Distill-Qwen-7B也表现出色。

研究显示TTS在简单任务上优于多数长CoT方法,但在复杂任务上仍有改进空间。未来工作将探索TTS在更多任务上的应用及更高效方法。

原文链接
本文链接:https://kx.umi6.com/article/13194.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配
2025-09-30 10:23:35
DeepSeek给中国软件埋了一个「地雷」?
2025-06-24 09:14:11
DeepSeek式的AI味,越来越让人受不了了
2025-06-30 16:43:50
梁文锋,准备战斗
2025-07-30 17:51:33
DeepSeek被曝开发AI智能体模型:能自主完成多步工作
2025-09-05 08:15:12
DeepSeek 下一代技术提前曝光,梁文锋署名论文获 ACL 2025 最佳论文奖
2025-08-01 17:03:23
K2开源大模型,会是Kimi的DeepSeek时刻吗?
2025-07-14 11:19:10
淘宝上卖9块9的DeepSeek,让我看到了被折叠的魔幻世界
2025-09-16 12:10:49
德国要求苹果与谷歌下架DeepSeek应用 中方已多次明确表态
2025-06-28 12:19:15
「DeepSeek们」回答位变广告位
2025-08-05 15:15:26
DeepSeek新模型上线
2025-09-30 11:25:43
全球 6 大顶级 AI 实盘厮杀,Deepseek 三天收益爆赚 36% 傲视群雄
2025-10-22 08:40:07
DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥
2025-08-22 14:48:58
24小时热文
更多
扫一扫体验小程序