DeepSeek放大招!新模型DeepSeek-Prover-V2专注于数学定理证明,刷新多项高难度基准测试记录。在普特南测试中,该模型成功解答49道题,远超目前排名第一的Kimina-Prover(仅解出10题)。而未优化的DeepSeek-R1仅解出1题,令人期待R2的表现。
论文中特别提到“通过强化学习发现新技能”的现象。7B参数的小模型DeepSeek-Prover-V2-7B用非CoT生成模式解决了671B模型未能解答的13个问题。研究发现,7B模型在处理涉及有限基数的问题时,频繁使用特定推理方法,而671B模型未展现类似能力。
DeepSeek-Prover-V2由三款模型发展而来:2024年3月的Prover-V1、同年8月的Prover-V1.5及2025年5月的Prover-V2。Prover-V2通过子目标分解强化学习、形式化与非形式化数学证明统一模型等技术,显著提升了定理证明能力。
模型采用两阶段训练:第一阶段使用非CoT模式快速生成Lean证明代码;第二阶段结合CoT模式详细描述推理步骤,提升复杂问题解决能力。此外,通过专家迭代和监督微调,模型在miniF2F测试中达到88.9%的通过率,并在普特南测试中解答49道题。
Prover-V2还推出了ProverBench数据集,包含325个问题,涵盖高中竞赛及本科数学问题。该模型发布后受到广泛关注,GitHub仓库12小时内收获350+星标,多位学者和业内人士纷纷点赞并表达期待。
原文链接
本文链接:https://kx.umi6.com/article/18069.html
转载请注明文章出处
相关推荐
换一换
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力
2025-05-14 15:16:49
Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理
2025-09-18 08:48:39
OpenAI:GPT-5 模型正开始减轻科学家日常工作量
2025-11-22 00:51:13
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
2025-10-30 10:33:49
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
秒级生成百万级token!九章云极发布九章智算云Alaya NeW Cloud 2.0
2025-06-16 19:13:12
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
清华刘知远团队论文:在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026
2026-02-09 19:27:01
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
梁文锋,与杨植麟再「撞车」
2025-05-12 15:36:02
696 文章
535494 浏览
24小时热文
更多
-
2026-04-24 15:20:44 -
2026-04-24 15:19:39 -
2026-04-24 15:18:33