近日,深度学习模型DeepSeek-Prover-V2发布,包含7B和671B参数两种版本。该模型通过递归强化学习提升数学推理能力,在多项基准测试中表现出色。671B版本在MiniF2F-test上达到88.9%的通过率,显著优于现有开源模型。论文指出,模型通过冷启动数据合成及强化学习技术,将非形式化推理与形式化证明结合,实现高效数学证明。此外,7B小模型在特定任务中表现优异,解决了一些671B未完成的问题。DeepSeek-Prover-V2已在Hugging Face和GitHub开源,未来目标是攻克IMO级别难题。
原文链接
本文链接:https://kx.umi6.com/article/18142.html
转载请注明文章出处
相关推荐
换一换
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
2025-05-08 18:33:15
性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent
2025-06-23 09:22:20
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
OpenAI:GPT-5 模型正开始减轻科学家日常工作量
2025-11-22 00:51:13
英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型
2025-06-05 15:52:55
AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
2025-04-09 21:08:08
我不给人做产品,给Agent做
2025-06-30 08:39:41
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型
2025-06-23 17:25:48
卡帕西:强化学习很糟糕,但其他所有方法都更糟
2025-10-18 15:34:39
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
2025-05-23 13:51:09
615 文章
354905 浏览
24小时热文
更多
-
2025-12-08 21:51:18 -
2025-12-08 21:49:12 -
2025-12-08 21:48:42