1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek放大招!新模型DeepSeek-Prover-V2专注于数学定理证明,刷新多项高难度基准测试记录。在普特南测试中,该模型成功解答49道题,远超目前排名第一的Kimina-Prover(仅解出10题)。而未优化的DeepSeek-R1仅解出1题,令人期待R2的表现。

论文中特别提到“通过强化学习发现新技能”的现象。7B参数的小模型DeepSeek-Prover-V2-7B用非CoT生成模式解决了671B模型未能解答的13个问题。研究发现,7B模型在处理涉及有限基数的问题时,频繁使用特定推理方法,而671B模型未展现类似能力。

DeepSeek-Prover-V2由三款模型发展而来:2024年3月的Prover-V1、同年8月的Prover-V1.5及2025年5月的Prover-V2。Prover-V2通过子目标分解强化学习、形式化与非形式化数学证明统一模型等技术,显著提升了定理证明能力。

模型采用两阶段训练:第一阶段使用非CoT模式快速生成Lean证明代码;第二阶段结合CoT模式详细描述推理步骤,提升复杂问题解决能力。此外,通过专家迭代和监督微调,模型在miniF2F测试中达到88.9%的通过率,并在普特南测试中解答49道题。

Prover-V2还推出了ProverBench数据集,包含325个问题,涵盖高中竞赛及本科数学问题。该模型发布后受到广泛关注,GitHub仓库12小时内收获350+星标,多位学者和业内人士纷纷点赞并表达期待。

原文链接
本文链接:https://kx.umi6.com/article/18069.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
非技术人10分钟读懂Deepseek R1
2025-02-14 18:44:39
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型
2025-06-05 15:52:55
为何强化学习火遍硅谷?AGI的关键一步
2025-08-07 15:55:40
机器狗能打羽毛球:仅靠强化学习从 0 自学,还会自己移步
2025-05-30 17:53:28
迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单
2025-03-17 12:34:27
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
DeepSeek-Prover-V2 登场:AI 数学推理新王者,88.9% 通过率设新标杆
2025-05-01 10:18:39
秒级生成百万级token!九章云极发布九章智算云Alaya NeW Cloud 2.0
2025-06-16 19:13:12
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
大神卡帕西拿DeepSeek R1讲强化学习!最新大模型内部机制视频爆火,“没有技术背景也能看懂”
2025-02-06 16:33:21
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
2025-02-16 12:22:15
24小时热文
更多
扫一扫体验小程序