DeepSeek放大招!新模型DeepSeek-Prover-V2专注于数学定理证明,刷新多项高难度基准测试记录。在普特南测试中,该模型成功解答49道题,远超目前排名第一的Kimina-Prover(仅解出10题)。而未优化的DeepSeek-R1仅解出1题,令人期待R2的表现。
论文中特别提到“通过强化学习发现新技能”的现象。7B参数的小模型DeepSeek-Prover-V2-7B用非CoT生成模式解决了671B模型未能解答的13个问题。研究发现,7B模型在处理涉及有限基数的问题时,频繁使用特定推理方法,而671B模型未展现类似能力。
DeepSeek-Prover-V2由三款模型发展而来:2024年3月的Prover-V1、同年8月的Prover-V1.5及2025年5月的Prover-V2。Prover-V2通过子目标分解强化学习、形式化与非形式化数学证明统一模型等技术,显著提升了定理证明能力。
模型采用两阶段训练:第一阶段使用非CoT模式快速生成Lean证明代码;第二阶段结合CoT模式详细描述推理步骤,提升复杂问题解决能力。此外,通过专家迭代和监督微调,模型在miniF2F测试中达到88.9%的通过率,并在普特南测试中解答49道题。
Prover-V2还推出了ProverBench数据集,包含325个问题,涵盖高中竞赛及本科数学问题。该模型发布后受到广泛关注,GitHub仓库12小时内收获350+星标,多位学者和业内人士纷纷点赞并表达期待。
原文链接
本文链接:https://kx.umi6.com/article/18069.html
转载请注明文章出处
相关推荐
换一换
混元OCR模型核心技术揭秘:统一框架、真端到端
2025-11-30 11:05:21
机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑
2026-06-02 12:26:59
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
波士顿动力 Spot 四足机器人学会连续后空翻,意外让行走姿态更像真实动物
2025-08-28 10:20:06
上交博士最新思考:仅用两个问题讲清强化学习
2025-11-10 18:29:12
上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题
2025-06-04 08:15:30
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型
2025-05-27 14:51:28
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
2025-10-23 17:10:54
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
721 文章
616258 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41