DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

2025-05-01 13:22:40

WisdomTrail

发布在

科普

阅读：764

DeepSeek放大招！新模型DeepSeek-Prover-V2专注于数学定理证明，刷新多项高难度基准测试记录。在普特南测试中，该模型成功解答49道题，远超目前排名第一的Kimina-Prover（仅解出10题）。而未优化的DeepSeek-R1仅解出1题，令人期待R2的表现。

论文中特别提到“通过强化学习发现新技能”的现象。7B参数的小模型DeepSeek-Prover-V2-7B用非CoT生成模式解决了671B模型未能解答的13个问题。研究发现，7B模型在处理涉及有限基数的问题时，频繁使用特定推理方法，而671B模型未展现类似能力。

DeepSeek-Prover-V2由三款模型发展而来：2024年3月的Prover-V1、同年8月的Prover-V1.5及2025年5月的Prover-V2。Prover-V2通过子目标分解强化学习、形式化与非形式化数学证明统一模型等技术，显著提升了定理证明能力。

模型采用两阶段训练：第一阶段使用非CoT模式快速生成Lean证明代码；第二阶段结合CoT模式详细描述推理步骤，提升复杂问题解决能力。此外，通过专家迭代和监督微调，模型在miniF2F测试中达到88.9%的通过率，并在普特南测试中解答49道题。

Prover-V2还推出了ProverBench数据集，包含325个问题，涵盖高中竞赛及本科数学问题。该模型发布后受到广泛关注，GitHub仓库12小时内收获350+星标，多位学者和业内人士纷纷点赞并表达期待。

原文链接

本文链接：https://kx.umi6.com/article/18069.html

转载请注明文章出处

DeepSeek-Prover-V2

强化学习

数学定理证明

分享至

打开微信扫一扫

内容投诉

生成图片

WisdomTrail

667 文章

467617 浏览

24小时热文