DeepSeek放大招!新模型DeepSeek-Prover-V2专注于数学定理证明,刷新多项高难度基准测试记录。在普特南测试中,该模型成功解答49道题,远超目前排名第一的Kimina-Prover(仅解出10题)。而未优化的DeepSeek-R1仅解出1题,令人期待R2的表现。
论文中特别提到“通过强化学习发现新技能”的现象。7B参数的小模型DeepSeek-Prover-V2-7B用非CoT生成模式解决了671B模型未能解答的13个问题。研究发现,7B模型在处理涉及有限基数的问题时,频繁使用特定推理方法,而671B模型未展现类似能力。
DeepSeek-Prover-V2由三款模型发展而来:2024年3月的Prover-V1、同年8月的Prover-V1.5及2025年5月的Prover-V2。Prover-V2通过子目标分解强化学习、形式化与非形式化数学证明统一模型等技术,显著提升了定理证明能力。
模型采用两阶段训练:第一阶段使用非CoT模式快速生成Lean证明代码;第二阶段结合CoT模式详细描述推理步骤,提升复杂问题解决能力。此外,通过专家迭代和监督微调,模型在miniF2F测试中达到88.9%的通过率,并在普特南测试中解答49道题。
Prover-V2还推出了ProverBench数据集,包含325个问题,涵盖高中竞赛及本科数学问题。该模型发布后受到广泛关注,GitHub仓库12小时内收获350+星标,多位学者和业内人士纷纷点赞并表达期待。
原文链接
本文链接:https://kx.umi6.com/article/18069.html
转载请注明文章出处
相关推荐
换一换
Meta 推 LlamaRL 强化学习框架:全异步分布设计,训练 AI 模型提速 10.7 倍
2025-06-11 16:14:21
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
攻克强化学习「最慢一环」!交大字节联手,RL训练速度飙升2.6倍
2025-09-13 17:30:05
4o-mini华人领队也离职了,这次不怪小扎
2025-08-19 16:01:05
Epoch AI 预言:最快 1 年内,推理模型步伐将放缓
2025-05-14 09:09:06
为何强化学习火遍硅谷?AGI的关键一步
2025-08-07 15:55:40
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
清华 + 北大两部 DeepSeek 原版宝典新出炉!(附九部全集下载)
2025-02-28 21:28:54
从蛰伏到王炸,RL启示录
2025-03-31 14:32:31
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
2025-06-20 21:05:08
小米最新大模型成果!罗福莉现身了
2025-10-17 16:21:28
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
540 文章
255869 浏览
24小时热文
更多
-
2025-10-24 12:40:26 -
2025-10-24 12:39:31 -
2025-10-24 12:39:22