1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:7B的DeepSeek反超R1满血版,上海AI Lab新成果

新方法使DeepSeek的Qwen数学能力超越R1满血版,7B模型反超671B。

上海AI Lab/清华哈工大/北邮团队的研究由齐弼卿和周伯文领导,探讨了Test-Time Scaling (TTS)在不同策略模型、过程奖励模型及问题难度下的影响。

研究聚焦两大核心问题: 1. 最优TTS方式如何受策略模型、PRM及问题难度影响? 2. TTS在复杂任务上的表现提升幅度及小模型能否超越大模型?

团队在MATH-500和AIME24数据集上实验,使用多个策略模型和PRM进行评估。他们定义了推理问题为马尔可夫决策过程,并测试了Best-of-N、Beam Search和Diverse Verifier Tree Search三种TTS方法。

实验显示,最优TTS方法依赖具体条件。小型策略模型中,搜索方法优于BoN;大型策略模型反之。PRM的选择也显著影响性能。问题难度方面,不同规模模型适用不同的TTS方法。

团队提出奖励感知型最优TTS框架,使计算适应特定模型和提示。3B Llama3.2在MATH-500和AIME24上超越135倍大的Llama3.1-405B,DeepSeek-R1-Distill-Qwen-7B也表现出色。

研究显示TTS在简单任务上优于多数长CoT方法,但在复杂任务上仍有改进空间。未来工作将探索TTS在更多任务上的应用及更高效方法。

原文链接
本文链接:https://kx.umi6.com/article/13194.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
DeepSeek官方点赞元宝,罕见现身互动
2025-12-24 17:46:41
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
被AI「摩擦」的十天:一个普通人的上手记
2025-08-16 18:28:03
DeepSeek真的不行了吗
2025-07-29 19:35:17
OpenAI发布开源模型“王者归来”,DeepSeek剧情会反转吗
2025-08-06 12:31:08
DeepSeek 新模型曝光:MODEL1 代码预示新架构,最快有望 2 月发布
2026-01-21 09:02:53
别太相信DeepSeek
2025-08-14 18:02:41
deepseek当选网易有道词典2025年度词汇,全年搜索量超867万次
2025-12-01 18:22:41
DeepSeek终于把OpenAI逼急了
2025-08-06 16:35:39
梁文锋等来及时雨
2025-07-15 17:50:04
黄仁勋力赞 DeepSeek,称中国创新的步伐不可能被阻挡
2025-07-21 09:13:49
网友称“Deepseek演都不演了”:输入手机内存不够“二选一删谁” 秒回答豆包
2025-08-20 17:26:16
24小时热文
更多
扫一扫体验小程序