1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek放大招!新模型DeepSeek-Prover-V2专注于数学定理证明,刷新多项高难度基准测试记录。在普特南测试中,该模型成功解答49道题,远超目前排名第一的Kimina-Prover(仅解出10题)。而未优化的DeepSeek-R1仅解出1题,令人期待R2的表现。

论文中特别提到“通过强化学习发现新技能”的现象。7B参数的小模型DeepSeek-Prover-V2-7B用非CoT生成模式解决了671B模型未能解答的13个问题。研究发现,7B模型在处理涉及有限基数的问题时,频繁使用特定推理方法,而671B模型未展现类似能力。

DeepSeek-Prover-V2由三款模型发展而来:2024年3月的Prover-V1、同年8月的Prover-V1.5及2025年5月的Prover-V2。Prover-V2通过子目标分解强化学习、形式化与非形式化数学证明统一模型等技术,显著提升了定理证明能力。

模型采用两阶段训练:第一阶段使用非CoT模式快速生成Lean证明代码;第二阶段结合CoT模式详细描述推理步骤,提升复杂问题解决能力。此外,通过专家迭代和监督微调,模型在miniF2F测试中达到88.9%的通过率,并在普特南测试中解答49道题。

Prover-V2还推出了ProverBench数据集,包含325个问题,涵盖高中竞赛及本科数学问题。该模型发布后受到广泛关注,GitHub仓库12小时内收获350+星标,多位学者和业内人士纷纷点赞并表达期待。

原文链接
本文链接:https://kx.umi6.com/article/18069.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
2025-05-08 11:29:43
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
2025-03-20 19:41:21
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜
2025-11-18 15:24:50
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
2025-04-23 11:57:26
小米最新大模型成果!罗福莉现身了
2025-10-17 16:21:28
文生图进入R1时代:港中文发布T2I-R1,让AI绘画“先推理再下笔”
2025-05-14 17:20:57
陶哲轩“喂饭级”AI教程来了!只用GitHub Copilot证明函数极限问题
2025-05-20 16:41:45
亚马逊开建AGI实验室,一号位也是华人
2025-09-22 09:54:37
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
2025-05-30 16:56:50
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
24小时热文
更多
扫一扫体验小程序