综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月24日,字节跳动Seed团队发布形式化数学推理专用模型Seed Prover 1.5。新模型在16.5小时内为IMO 2025前5道题目生成完整可编译验证的Lean证明代码,成绩达35/42,超过金牌分数线。技术报告已公开,并将开放API供数学与AI研究者体验。
原文链接
12月24日,字节跳动Seed团队发布新一代形式化数学推理模型Seed Prover 1.5。该模型通过大规模Agentic RL训练,在IMO 2025前5道题目中取得35/42分,达到金牌分数线,并在9小时内完成Putnam 2025赛题中11道的Lean证明代码生成。评估显示,Seed Prover 1.5在Putnam历史评估集中解决88%问题,在硕士难度Fate-H和博士难度Fate-X评估集中分别解决80%和33%问题,刷新多项SOTA表现。技术报告已公开,后续将开放API链接。
原文链接
2025年11月,DeepSeek开源全新数学模型DeepSeekMath-V2,专注自验证数学推理,打破谷歌和OpenAI在该领域的垄断。该模型在IMO 2025、CMO 2024及Putnam 2024竞赛中表现卓越,尤其在Putnam中以118/120超越人类最高分90分,并在代数、几何、数论等CNML级别问题上全面领先GPT-5-Thinking-High和Gemini 2.5-Pro。DeepSeekMath-V2采用迭代强化学习循环优化证明生成与验证,首次实现完全自动化数据标注流程,显著提升模型能力。此模型由研究员邵智宏主导开发,他曾提出经典算法GRPO并参与多个重要项目。这一成果标志着开源AI在复杂数学推理领域的重要突破。
原文链接
11月27日,DeepSeek发布DeepSeekMath-V2模型,主打自验证数学推理能力。该模型通过构建基于LLM的验证器,对生成的证明进行自动审查,并利用扩展计算生成高难度训练样本提升验证能力。在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中,模型均达到金牌水准,同时在2024年普特南数学竞赛(Putnam 2024)中取得118/120的优异成绩。官方表示,这一成果验证了可自验证数学推理的可行性,为未来更强大、可靠的数学智能系统奠定基础。项目已开源,详情可参考Hugging Face与GitHub页面。
原文链接
4日,阿里通义千问发布Qwen3-Max-Thinking早期预览版,邀请用户尝鲜试用。据介绍,该模型仍在持续训练中,但即使在当前阶段,借助工具调用和规模化测试计算,其推理能力已在AIME 25和HMMT 25等高难度数学推理基准测试中实现100%准确率,展现出卓越性能。这一进展凸显了阿里在人工智能领域的技术实力,也为用户提供了更强大的数学推理工具选择。
原文链接
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
香港大学NLP团队联合字节跳动Seed和复旦大学推出强化学习训练配方Polaris,通过仅700步RL训练,让4B参数量的小模型在数学推理任务上接近235B大模型的表现,并超越Cl...
原文链接
正文:2025年7月,CMU研究团队发布论文指出,训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现,发现采用监督微调(SFT)的模型常出现负迁移,尤其在非推理任务上表现更差;而强化学习(RL)训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验,研究进一步表明RL微调对模型原有知识的保留更优,同时提升了特定领域的逻辑能力。研究认为,强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。
原文链接
有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型
6月23日,网易有道宣布开源“子曰3”系列大模型中的数学模型(英文名Confucius3-Math),这是国内首个专注于数学教育且能在单块消费级GPU上高效运行的开源推理模型。该模型在多项数学推理任务中表现优异,超越了许多更大规模的...
原文链接
标题:10% KV Cache实现无损数学推理!开源方法解决大模型「记忆过载」难题
推理大模型虽然强大,但面对复杂问题时会产生大量冗余内容,影响效率和准确性。一种名为R-KV的开源方法通过高效压缩KV缓存解决了这一问题,显存需求减少90%,吞吐量提升6.6倍,且保持100%的推理准确率。
R-K...
原文链接
标题:西北大学与谷歌提出新框架:贝叶斯自适应强化学习提升LLM推理能力
西北大学与Google、谷歌DeepMind团队提出了一种名为贝叶斯自适应强化学习(BARL)的新框架,首次系统解释了大型语言模型(LLM)如何在推理中进行反思并探索新策略。传统强化学习(RL)中,模型在测试时倾向于利用已学...
原文链接
加载更多
暂无内容