近日,深度学习模型DeepSeek-Prover-V2发布,包含7B和671B参数两种版本。该模型通过递归强化学习提升数学推理能力,在多项基准测试中表现出色。671B版本在MiniF2F-test上达到88.9%的通过率,显著优于现有开源模型。论文指出,模型通过冷启动数据合成及强化学习技术,将非形式化推理与形式化证明结合,实现高效数学证明。此外,7B小模型在特定任务中表现优异,解决了一些671B未完成的问题。DeepSeek-Prover-V2已在Hugging Face和GitHub开源,未来目标是攻克IMO级别难题。
原文链接
本文链接:https://kx.umi6.com/article/18142.html
转载请注明文章出处
相关推荐
.png)
换一换
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
月之暗面因 DeepSeek 调整工作重心?内部人士:强化学习或许会是个方向
2025-02-15 18:07:16
推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术
2025-02-27 15:32:45
Meta 推出强化学习新框架 SWEET-RL,让 AI 更懂人类意图
2025-03-24 11:54:11
我不给人做产品,给Agent做
2025-06-30 08:39:41
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
2025-06-02 14:38:11
清华 + 北大两部 DeepSeek 原版宝典新出炉!(附九部全集下载)
2025-02-28 21:28:54
稚晖君机器人“葡萄缝针”神技再现江湖 这次是人形的
2025-03-11 23:55:21
DeepSeek新模型大揭秘,为何它能震动全球AI圈
2025-01-23 15:26:36
图灵奖获奖者们, AI 界的「奥本海默」
2025-03-10 13:35:24
从蛰伏到王炸,RL启示录
2025-03-31 14:32:31
超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品
2025-04-01 11:18:45
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
513 文章
166348 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08