1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:7B的DeepSeek反超R1满血版,上海AI Lab新成果

新方法使DeepSeek的Qwen数学能力超越R1满血版,7B模型反超671B。

上海AI Lab/清华哈工大/北邮团队的研究由齐弼卿和周伯文领导,探讨了Test-Time Scaling (TTS)在不同策略模型、过程奖励模型及问题难度下的影响。

研究聚焦两大核心问题: 1. 最优TTS方式如何受策略模型、PRM及问题难度影响? 2. TTS在复杂任务上的表现提升幅度及小模型能否超越大模型?

团队在MATH-500和AIME24数据集上实验,使用多个策略模型和PRM进行评估。他们定义了推理问题为马尔可夫决策过程,并测试了Best-of-N、Beam Search和Diverse Verifier Tree Search三种TTS方法。

实验显示,最优TTS方法依赖具体条件。小型策略模型中,搜索方法优于BoN;大型策略模型反之。PRM的选择也显著影响性能。问题难度方面,不同规模模型适用不同的TTS方法。

团队提出奖励感知型最优TTS框架,使计算适应特定模型和提示。3B Llama3.2在MATH-500和AIME24上超越135倍大的Llama3.1-405B,DeepSeek-R1-Distill-Qwen-7B也表现出色。

研究显示TTS在简单任务上优于多数长CoT方法,但在复杂任务上仍有改进空间。未来工作将探索TTS在更多任务上的应用及更高效方法。

原文链接
本文链接:https://kx.umi6.com/article/13194.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
被AI「摩擦」的十天:一个普通人的上手记
2025-08-16 18:28:03
罕见千万级大单:山西临汾将打造“AI 医院”,部署 DeepSeek
2025-06-25 17:31:56
DeepSeek新版R1直追OpenAI o3!实测来了:“小版本升级”着实不小
2025-05-29 11:14:38
R2来之前,DeepSeek又放了个烟雾弹
2025-05-16 13:58:25
为什么DeepSeek回答前总先“嗯”一下
2025-04-30 20:17:08
宝马中国将接入DeepSeek!爆新世代车型搭载AI智能体
2025-04-27 14:16:44
DeepSeek核心高管离职创业,瞄准Agent赛道|独家
2025-06-09 16:30:51
玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?
2025-06-03 10:50:11
Claude 4六个月内发布!Anthropic联创Kaplan:AGI两三年内到来
2025-05-05 09:37:18
网友称“Deepseek演都不演了”:输入手机内存不够“二选一删谁” 秒回答豆包
2025-08-20 17:26:16
微软首次公开:已禁止员工使用DeepSeek应用!
2025-05-09 13:53:07
OpenAI发布开源模型“王者归来”,DeepSeek剧情会反转吗
2025-08-06 12:31:08
大模型退火之后,AI手机还好吗
2025-06-25 08:26:26
24小时热文
更多
扫一扫体验小程序