4月30日,深度求索(DeepSeek)在Hugging Face上发布DeepSeek-Prover-V2-671B新模型。该模型专注于形式化数学推理,基于DeepSeek-V3-0324,采用递归定理证明管道生成初始数据。DeepSeek推出671B参数的DeepSeek-Prover-V2-671B和7B参数的DeepSeek-Prover-V2-7B两款模型,以及ProverBench数据集。团队通过分解复杂定理为子目标,并利用7B模型处理子目标证明,结合DeepSeek-V3的思维链生成强化学习数据。最终,671B版本在MiniF2F-test数据集上达到88.9%通过率,在PutnamBench数据集中解决问题49个。ProverBench数据集包含325个数学问题,覆盖高中竞赛及本科数学领域,推动AI数学推理能力的评估与应用。
原文链接
本文链接:https://kx.umi6.com/article/18060.html
转载请注明文章出处
相关推荐
换一换
微软推出 14B 参数小语言模型 Phi-4:专攻数学等领域复杂推理
2024-12-13 13:24:50
有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型
2025-06-23 17:25:48
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
2025-02-16 12:22:15
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
让Qwen2.5 7B超越o1,微软干的!MSRA推出小模型数学推理自我进化新方法
2025-01-10 12:15:13
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
2025-01-26 17:15:51
微软 rStar-Math 技术登场:小语言 AI 模型数学推理从“不及格”一跃成为“优等生”
2025-01-11 12:39:34
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
2025-06-02 14:38:11
阿里通义千问推出Qwen3-Max-Thinking尝鲜版
2025-11-04 17:23:23
斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准
2025-01-06 10:19:08
664 文章
498177 浏览
24小时热文
更多
-
2026-03-10 13:19:24 -
2026-03-10 13:18:55 -
2026-03-10 12:13:43