数学推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

阿里通义千问推出Qwen3-Max-Thinking尝鲜版

4日，阿里通义千问发布Qwen3-Max-Thinking早期预览版，邀请用户尝鲜试用。据介绍，该模型仍在持续训练中，但即使在当前阶段，借助工具调用和规模化测试计算，其推理能力已在AIME 25和HMMT 25等高难度数学推理基准测试中实现100%准确率，展现出卓越性能。这一进展凸显了阿里在人工智能领域的技术实力，也为用户提供了更强大的数学推理工具选择。

原文链接

QuantumHacker

11-04 17:23:23

分享至

打开微信扫一扫

内容投诉

生成图片

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦香港大学NLP团队联合字节跳动Seed和复旦大学推出强化学习训练配方Polaris，通过仅700步RL训练，让4B参数量的小模型在数学推理任务上接近235B大模型的表现，并超越Cl...

原文链接

智慧轨迹

07-09 15:04:14

分享至

打开微信扫一扫

内容投诉

生成图片

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

正文：2025年7月，CMU研究团队发布论文指出，训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现，发现采用监督微调（SFT）的模型常出现负迁移，尤其在非推理任务上表现更差；而强化学习（RL）训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验，研究进一步表明RL微调对模型原有知识的保留更优，同时提升了特定领域的逻辑能力。研究认为，强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。

原文链接

虚拟织梦者

07-08 17:52:09

分享至

打开微信扫一扫

内容投诉

生成图片

有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型

有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型 6月23日，网易有道宣布开源“子曰3”系列大模型中的数学模型（英文名Confucius3-Math），这是国内首个专注于数学教育且能在单块消费级GPU上高效运行的开源推理模型。该模型在多项数学推理任务中表现优异，超越了许多更大规模的...

原文链接

镜像现实MirageX

06-23 17:25:48

分享至

打开微信扫一扫

内容投诉

生成图片

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

标题：西北大学与谷歌提出新框架：贝叶斯自适应强化学习提升LLM推理能力西北大学与Google、谷歌DeepMind团队提出了一种名为贝叶斯自适应强化学习(BARL)的新框架，首次系统解释了大型语言模型(LLM)如何在推理中进行反思并探索新策略。传统强化学习(RL)中，模型在测试时倾向于利用已学...

原文链接

GhostPilot

06-02 14:38:11

分享至

打开微信扫一扫

内容投诉

生成图片

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

挑战AI数学推理极限：FormalMATH基准发布，最强模型成功率仅16% 由香港中文大学、西湖大学、MAP、浙江大学等机构联合推出的FormalMATH形式化数学推理基准测试，包含5560道经过验证的数学题，覆盖代数、微积分、数论等多个领域。结果显示，即便是在最佳条件下，最强模型的成功率也仅为16...

原文链接

未来编码者

05-08 09:23:53

分享至

打开微信扫一扫

内容投诉

生成图片

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

近日，深度学习模型DeepSeek-Prover-V2发布，包含7B和671B参数两种版本。该模型通过递归强化学习提升数学推理能力，在多项基准测试中表现出色。671B版本在MiniF2F-test上达到88.9%的通过率，显著优于现有开源模型。论文指出，模型通过冷启动数据合成及强化学习技术，将非形式化推理与形式化证明结合，实现高效数学证明。此外，7B小模型在特定任务中表现优异，解决了一些671B未完成的问题。DeepSeek-Prover-V2已在Hugging Face和GitHub开源，未来目标是攻克IMO级别难题。

原文链接

AI奇点纪元

05-05 09:43:44

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-Prover-V2 登场：AI 数学推理新王者，88.9% 通过率设新标杆

4月30日，深度求索（DeepSeek）在Hugging Face上发布DeepSeek-Prover-V2-671B新模型。该模型专注于形式化数学推理，基于DeepSeek-V3-0324，采用递归定理证明管道生成初始数据。DeepSeek推出671B参数的DeepSeek-Prover-V2-671B和7B参数的DeepSeek-Prover-V2-7B两款模型，以及ProverBench数据集。团队通过分解复杂定理为子目标，并利用7B模型处理子目标证明，结合DeepSeek-V3的思维链生成强化学习数据。最终，671B版本在MiniF2F-test数据集上达到88.9%通过率，在PutnamBench数据集中解决问题49个。ProverBench数据集包含325个数学问题，覆盖高中竞赛及本科数学领域，推动AI数学推理能力的评估与应用。

原文链接

跨界思维

05-01 10:18:39

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek开源新模型，数学推理能力大提升

DeepSeek开源新模型，数学推理能力大提升五一假期前，DeepSeek发布惊喜——DeepSeek-Prover-V2在Hugging Face上线，同步提供模型卡与示例代码。该版本包括两个模型：DeepSeek-Prover-V2-7B（基于V1.5，支持32K上下文输入）和DeepSe...

原文链接

月光编码师

05-01 09:16:24

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌研究：合成数据使大模型数学推理能力提升八倍

4月7日消息，谷歌联合卡内基梅隆大学和MultiOn的研究团队发现，合成数据可使大模型数学推理能力提升八倍。当前全球高质量文本训练标记约300万亿个，但随着大模型需求激增，预计2026年前将耗尽这些数据，合成数据成为关键替代方案。研究团队探索了正向数据（正确解题示例）与负向数据（错误解题步骤）两种类型。正向数据虽能提供解题参考，但可能导致模型过度依赖模式匹配而非深入理解。负向数据则通过直接偏好优化（DPO）方法帮助模型识别并修正错误，增强逻辑推理能力。DPO为每一步骤分配优势值，强调关键步骤价值。测试显示，结合正向和负向合成数据预训练后，DeepSeek-Math-7B和LLaMa2-7B等模型在GSM8K和MATH数据集上的数学推理性能显著提升八倍，展现了合成数据的巨大潜力。

原文链接

镜像现实MirageX

04-07 09:47:20

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多