数学推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek再破谷歌OpenAI垄断：开源IMO数学金牌大模型

2025年11月，DeepSeek开源全新数学模型DeepSeekMath-V2，专注自验证数学推理，打破谷歌和OpenAI在该领域的垄断。该模型在IMO 2025、CMO 2024及Putnam 2024竞赛中表现卓越，尤其在Putnam中以118/120超越人类最高分90分，并在代数、几何、数论等CNML级别问题上全面领先GPT-5-Thinking-High和Gemini 2.5-Pro。DeepSeekMath-V2采用迭代强化学习循环优化证明生成与验证，首次实现完全自动化数据标注流程，显著提升模型能力。此模型由研究员邵智宏主导开发，他曾提出经典算法GRPO并参与多个重要项目。这一成果标志着开源AI在复杂数学推理领域的重要突破。

原文链接

像素宇宙

11-28 13:28:13

DeepSeekMath-V2

IMO金牌模型

自验证数学推理

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek 推出 DeepSeekMath‑V2 模型，主打自验证数学推理能力

11月27日，DeepSeek发布DeepSeekMath-V2模型，主打自验证数学推理能力。该模型通过构建基于LLM的验证器，对生成的证明进行自动审查，并利用扩展计算生成高难度训练样本提升验证能力。在2025年国际数学奥林匹克竞赛（IMO 2025）和2024年中国数学奥林匹克竞赛（CMO 2024）中，模型均达到金牌水准，同时在2024年普特南数学竞赛（Putnam 2024）中取得118/120的优异成绩。官方表示，这一成果验证了可自验证数学推理的可行性，为未来更强大、可靠的数学智能系统奠定基础。项目已开源，详情可参考Hugging Face与GitHub页面。

原文链接

数据炼金师

11-27 20:52:29

DeepSeekMath-V2

数学竞赛

自验证数学推理

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问推出Qwen3-Max-Thinking尝鲜版

4日，阿里通义千问发布Qwen3-Max-Thinking早期预览版，邀请用户尝鲜试用。据介绍，该模型仍在持续训练中，但即使在当前阶段，借助工具调用和规模化测试计算，其推理能力已在AIME 25和HMMT 25等高难度数学推理基准测试中实现100%准确率，展现出卓越性能。这一进展凸显了阿里在人工智能领域的技术实力，也为用户提供了更强大的数学推理工具选择。

原文链接

QuantumHacker

11-04 17:23:23

Qwen3-Max-Thinking

数学推理

阿里通义千问

分享至

打开微信扫一扫

内容投诉

生成图片

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦香港大学NLP团队联合字节跳动Seed和复旦大学推出强化学习训练配方Polaris，通过仅700步RL训练，让4B参数量的小模型在数学推理任务上接近235B大模型的表现，并超越Cl...

原文链接

智慧轨迹

07-09 15:04:14

Polaris

强化学习

数学推理

分享至

打开微信扫一扫

内容投诉

生成图片

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

正文：2025年7月，CMU研究团队发布论文指出，训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现，发现采用监督微调（SFT）的模型常出现负迁移，尤其在非推理任务上表现更差；而强化学习（RL）训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验，研究进一步表明RL微调对模型原有知识的保留更优，同时提升了特定领域的逻辑能力。研究认为，强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。

原文链接

虚拟织梦者

07-08 17:52:09

大模型

强化学习

数学推理

分享至

打开微信扫一扫

内容投诉

生成图片

有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型

有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型 6月23日，网易有道宣布开源“子曰3”系列大模型中的数学模型（英文名Confucius3-Math），这是国内首个专注于数学教育且能在单块消费级GPU上高效运行的开源推理模型。该模型在多项数学推理任务中表现优异，超越了许多更大规模的...

原文链接

镜像现实MirageX

06-23 17:25:48

子曰3

数学推理

有道

分享至

打开微信扫一扫

内容投诉

生成图片

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

标题：10% KV Cache实现无损数学推理！开源方法解决大模型「记忆过载」难题推理大模型虽然强大，但面对复杂问题时会产生大量冗余内容，影响效率和准确性。一种名为R-KV的开源方法通过高效压缩KV缓存解决了这一问题，显存需求减少90%，吞吐量提升6.6倍，且保持100%的推理准确率。 R-K...

原文链接

数据炼金师

06-16 17:10:44

KV缓存

推理大模型

无损数学推理

分享至

打开微信扫一扫

内容投诉

生成图片

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

标题：西北大学与谷歌提出新框架：贝叶斯自适应强化学习提升LLM推理能力西北大学与Google、谷歌DeepMind团队提出了一种名为贝叶斯自适应强化学习(BARL)的新框架，首次系统解释了大型语言模型(LLM)如何在推理中进行反思并探索新策略。传统强化学习(RL)中，模型在测试时倾向于利用已学...

原文链接

GhostPilot

06-02 14:38:11

反思探索

数学推理

贝叶斯自适应强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

挑战AI数学推理极限：FormalMATH基准发布，最强模型成功率仅16% 由香港中文大学、西湖大学、MAP、浙江大学等机构联合推出的FormalMATH形式化数学推理基准测试，包含5560道经过验证的数学题，覆盖代数、微积分、数论等多个领域。结果显示，即便是在最佳条件下，最强模型的成功率也仅为16...

原文链接

未来编码者

05-08 09:23:53

AI模型

FormalMATH

数学推理

分享至

打开微信扫一扫

内容投诉

生成图片

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

近日，深度学习模型DeepSeek-Prover-V2发布，包含7B和671B参数两种版本。该模型通过递归强化学习提升数学推理能力，在多项基准测试中表现出色。671B版本在MiniF2F-test上达到88.9%的通过率，显著优于现有开源模型。论文指出，模型通过冷启动数据合成及强化学习技术，将非形式化推理与形式化证明结合，实现高效数学证明。此外，7B小模型在特定任务中表现优异，解决了一些671B未完成的问题。DeepSeek-Prover-V2已在Hugging Face和GitHub开源，未来目标是攻克IMO级别难题。

原文链接