4月30日,深度求索(DeepSeek)在Hugging Face上发布DeepSeek-Prover-V2-671B新模型。该模型专注于形式化数学推理,基于DeepSeek-V3-0324,采用递归定理证明管道生成初始数据。DeepSeek推出671B参数的DeepSeek-Prover-V2-671B和7B参数的DeepSeek-Prover-V2-7B两款模型,以及ProverBench数据集。团队通过分解复杂定理为子目标,并利用7B模型处理子目标证明,结合DeepSeek-V3的思维链生成强化学习数据。最终,671B版本在MiniF2F-test数据集上达到88.9%通过率,在PutnamBench数据集中解决问题49个。ProverBench数据集包含325个数学问题,覆盖高中竞赛及本科数学领域,推动AI数学推理能力的评估与应用。
原文链接
本文链接:https://kx.umi6.com/article/18060.html
转载请注明文章出处
相关推荐
换一换
DeepSeek-Prover-V2 登场:AI 数学推理新王者,88.9% 通过率设新标杆
2025-05-01 10:18:39
斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准
2025-01-06 10:19:08
超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品
2025-04-01 11:18:45
谷歌研究:合成数据使大模型数学推理能力提升八倍
2025-04-07 09:47:20
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
2025-01-26 17:15:51
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
DeepSeek开源新模型,数学推理能力大提升
2025-05-01 09:16:24
阿里通义千问推出Qwen3-Max-Thinking尝鲜版
2025-11-04 17:23:23
微软 rStar-Math 技术登场:小语言 AI 模型数学推理从“不及格”一跃成为“优等生”
2025-01-11 12:39:34
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
2025-02-16 12:22:15
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
梁文锋,与杨植麟再「撞车」
2025-05-12 15:36:02
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
570 文章
357397 浏览
24小时热文
更多
-
2025-12-08 22:52:38 -
2025-12-08 22:51:57 -
2025-12-08 22:51:33