4月30日,深度求索(DeepSeek)在Hugging Face上发布DeepSeek-Prover-V2-671B新模型。该模型专注于形式化数学推理,基于DeepSeek-V3-0324,采用递归定理证明管道生成初始数据。DeepSeek推出671B参数的DeepSeek-Prover-V2-671B和7B参数的DeepSeek-Prover-V2-7B两款模型,以及ProverBench数据集。团队通过分解复杂定理为子目标,并利用7B模型处理子目标证明,结合DeepSeek-V3的思维链生成强化学习数据。最终,671B版本在MiniF2F-test数据集上达到88.9%通过率,在PutnamBench数据集中解决问题49个。ProverBench数据集包含325个数学问题,覆盖高中竞赛及本科数学领域,推动AI数学推理能力的评估与应用。
原文链接
本文链接:https://kx.umi6.com/article/18060.html
转载请注明文章出处
相关推荐
.png)
换一换
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败
2024-06-30 15:55:25
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
2025-02-16 12:22:15
让Qwen2.5 7B超越o1,微软干的!MSRA推出小模型数学推理自我进化新方法
2025-01-10 12:15:13
谷歌研究:合成数据使大模型数学推理能力提升八倍
2025-04-07 09:47:20
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
2024-10-15 17:25:58
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限
2024-12-14 11:46:11
斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准
2025-01-06 10:19:08
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
2025-05-08 09:23:53
DeepSeek-Prover-V2 登场:AI 数学推理新王者,88.9% 通过率设新标杆
2025-05-01 10:18:39
519 文章
256751 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07