综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2025年12月,字节Seed AI团队发布数学推理模型Seed Prover 1.5,在IMO 2025竞赛中用16.5小时解决前5道题,获得35分金牌成绩,与谷歌Gemini持平。相比前代模型,新版本通过强化学习和计算资源扩展显著提升性能,并在Putnam竞赛基准中刷新SOTA成绩。技术亮点包括Agentic Prover架构和Sketch Model工具,前者通过多工具交互优化形式化证明效率,后者模拟人类“打草稿”方式分解复杂问题。研究团队采用混合奖励信号训练模型,确保逻辑路径规划的准确性。测试表明,增加计算资源可对数线性提升解题率。
原文链接
2025年12月1日,数学界迎来重大突破:AI模型Harmonic旗下的Aristotle(亚里士多德)仅用6小时成功证明了悬置近30年的Erdős问题#124简易版。该问题探讨特定条件下大整数的生成规则,原版难度极高,而此次证明的是条件放宽后的版本,且已通过Lean形式化验证。微软前AI副总裁Sebastien Bubeck及数学家陶哲轩均对这一成果表示关注。Harmonic公司由Tudor Achim和Vlad Tenev于2023年创立,目标是打造世界领先的数学推理引擎。其最新融资达1.2亿美元,估值14.5亿美元。Aristotle还计划参加2025年国际数学奥林匹克竞赛,并展现金牌级表现。这一进展标志着AI在复杂数学领域潜力巨大,或推动更多难题被攻克。
原文链接
2025年8月,OpenAI研究人员透露GPT-5 Pro在阅读一篇关于凸优化的数学论文后,独立提出了比原文更精确的边界条件,并给出了完整证明。这一成果引发了广泛讨论,推文半天内获得230万阅读量。尽管论文后来更新版本反超了GPT-5 Pro的结论,但其证明思路与人类不同,表明模型具备自主探索能力。OpenAI总裁Brockman称此为“生命迹象”。研究聚焦梯度下降算法中优化曲线的凸性问题,涉及步长选择对凸性的关键影响。GPT-5 Pro通过精细不等式技巧将边界从1/L提升至1.5/L,展示了AI在数学研究中的潜力。
原文链接
2025年8月4日,科技媒体The Information报道,OpenAI正开发名为“通用验证器”的新技术,或将显著提升GPT-5的市场竞争力。该技术通过“证明者-验证者游戏”机制,让一个AI模型验证另一个模型生成的答案,从而优化输出质量,尤其在数学证明和创意写作等复杂领域表现突出。这项技术最早在2024年7月的论文中被阐述,并被认为是前“超级对齐”团队的技术遗产。尽管团队已解散,其成果被整合进GPT-5研发中。OpenAI首席执行官Sam Altman称GPT-5“在几乎所有方面都更聪明”,引发市场高度期待。然而,GPT-5的研发仍面临训练数据稀缺及性能衰减等问题,最终效果待发布后检验。
原文链接
清华AI数学家:独立完成理论难题,自动调用基本定理构建证明思路
近日,清华大学团队推出了一款名为AIM(AI Mathematician)的数学推理框架,旨在解决前沿数学理论问题。这项技术通过自动化推理,能够独立完成复杂理论的证明工作,并展现出较高的完成度。
例如,在解决吸收边界条件问题时,AI...
原文链接
标题:陶哲轩转发!DeepMind开源「AI数学证明标准习题集」
DeepMind最新开源了形式化数学猜想库,这一资源集合了经典数学猜想的形式化表述,如解析数论中的朗道问题。此外,库中提供代码函数,便于将自然语言的数学猜想转化为形式化表述。
陶哲轩曾利用Lean工具形式化证明PFR猜想,其第一步正是...
原文链接
形式化证明与大模型:共创可验证的AI数学未来|量子位直播
5月,多个重要进展引发关注:DeepSeek Prover V2发布、陶哲轩的AI数学直播以及谷歌推出的AlphaEvolve。大模型在解数学题方面的表现已成为衡量AI“智能天花板”的关键指标,吸引了众多团队投入研究。
为更好评估AI的数...
原文链接
陶哲轩“喂饭级”AI教程来了!只用GitHub Copilot证明函数极限问题
视频新人博主陶哲轩更新了!这次带来“喂饭级”AI教程,手把手演示如何仅靠GitHub Copilot证明函数极限问题。
此前,陶哲轩主要用GitHub Copilot辅助代码补全,但若想用它证明数学定理,通常需要人类...
原文链接
4月30日,DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达671B,miniF2F测试通过率达88.9%,显著优于前代V1.5及月之暗面的Kimina-Prover(通过率80.7%)。DeepSeek-Prover-V2基于强化学习和子目标分解技术,延续其模型矩阵同步进化策略。此前,梁文锋与杨植麟曾在2月论文中“撞车”,双方均聚焦Transformer架构的注意力机制。当前,DeepSeek面临阿里巴巴通义千问Qwen3(参数量1/3,性能超越R1)和百度文心4.5 Turbo的竞争压力;而月之暗面的Kimi则需应对腾讯元宝的用户增长冲击,后者一季度投流费用达14亿元。DeepSeek正加速研发R2和V4版本,但市场对其依赖华为昇腾芯片存疑。业内呼吁中国大模型产业需多元竞争,而非一家独大。
原文链接
陶哲轩油管首秀:AI助力量化证明效率
快来围观,陶哲轩当起了视频博主。首个视频就炸裂全场:人类需写满一页纸的证明,AI仅用33分钟搞定?
整个过程流畅高效,全程“盲证”,无需过多思考。网友们惊叹:“这具有历史意义。”短短一天,订阅数已达900+,观看数超两千,还在持续增长中。
具体来看,陶哲...
原文链接
加载更多
暂无内容