证明 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

GPT-5 Pro 独立做数学研究：读论文后给出更精确边界，OpenAI 总裁称这是生命迹象

2025年8月，OpenAI研究人员透露GPT-5 Pro在阅读一篇关于凸优化的数学论文后，独立提出了比原文更精确的边界条件，并给出了完整证明。这一成果引发了广泛讨论，推文半天内获得230万阅读量。尽管论文后来更新版本反超了GPT-5 Pro的结论，但其证明思路与人类不同，表明模型具备自主探索能力。OpenAI总裁Brockman称此为“生命迹象”。研究聚焦梯度下降算法中优化曲线的凸性问题，涉及步长选择对凸性的关键影响。GPT-5 Pro通过精细不等式技巧将边界从1/L提升至1.5/L，展示了AI在数学研究中的潜力。

原文链接

代码编织者Nexus

08-21 15:34:40

GPT-5 Pro

凸优化

数学证明

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI的“新突破”：通用验证器

2025年8月4日，科技媒体The Information报道，OpenAI正开发名为“通用验证器”的新技术，或将显著提升GPT-5的市场竞争力。该技术通过“证明者-验证者游戏”机制，让一个AI模型验证另一个模型生成的答案，从而优化输出质量，尤其在数学证明和创意写作等复杂领域表现突出。这项技术最早在2024年7月的论文中被阐述，并被认为是前“超级对齐”团队的技术遗产。尽管团队已解散，其成果被整合进GPT-5研发中。OpenAI首席执行官Sam Altman称GPT-5“在几乎所有方面都更聪明”，引发市场高度期待。然而，GPT-5的研发仍面临训练数据稀缺及性能衰减等问题，最终效果待发布后检验。

原文链接

未来笔触

08-05 15:19:39

GPT-5

证明者-验证者游戏

通用验证器

分享至

打开微信扫一扫

内容投诉

生成图片

清华AI数学家：独立完成理论难题，自动调用基本定理构建证明思路

清华AI数学家：独立完成理论难题，自动调用基本定理构建证明思路近日，清华大学团队推出了一款名为AIM（AI Mathematician）的数学推理框架，旨在解决前沿数学理论问题。这项技术通过自动化推理，能够独立完成复杂理论的证明工作，并展现出较高的完成度。例如，在解决吸收边界条件问题时，AI...

原文链接

智能维度跳跃

06-05 10:45:56

AIM框架

AI数学家

数学证明

分享至

打开微信扫一扫

内容投诉

生成图片

陶哲轩转发！DeepMind开源「AI数学证明标准习题集」

标题：陶哲轩转发！DeepMind开源「AI数学证明标准习题集」 DeepMind最新开源了形式化数学猜想库，这一资源集合了经典数学猜想的形式化表述，如解析数论中的朗道问题。此外，库中提供代码函数，便于将自然语言的数学猜想转化为形式化表述。陶哲轩曾利用Lean工具形式化证明PFR猜想，其第一步正是...

原文链接

星际Code流浪者

05-31 13:04:33

AI数学证明

DeepMind

形式化数学猜想

分享至

打开微信扫一扫

内容投诉

生成图片

形式化证明与大模型：共创可验证的AI数学未来｜量子位直播

形式化证明与大模型：共创可验证的AI数学未来｜量子位直播 5月，多个重要进展引发关注：DeepSeek Prover V2发布、陶哲轩的AI数学直播以及谷歌推出的AlphaEvolve。大模型在解数学题方面的表现已成为衡量AI“智能天花板”的关键指标，吸引了众多团队投入研究。为更好评估AI的数...

原文链接

智能涌动

05-27 12:29:36

AI数学

大模型

形式化证明

分享至

打开微信扫一扫

内容投诉

生成图片

陶哲轩“喂饭级”AI教程来了！只用GitHub Copilot证明函数极限问题

陶哲轩“喂饭级”AI教程来了！只用GitHub Copilot证明函数极限问题视频新人博主陶哲轩更新了！这次带来“喂饭级”AI教程，手把手演示如何仅靠GitHub Copilot证明函数极限问题。此前，陶哲轩主要用GitHub Copilot辅助代码补全，但若想用它证明数学定理，通常需要人类...

原文链接

电子诗篇

05-20 16:41:45

GitHub Copilot

数学定理证明

陶哲轩

分享至

打开微信扫一扫

内容投诉

生成图片

梁文锋，与杨植麟再「撞车」

4月30日，DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2，参数规模达671B，miniF2F测试通过率达88.9%，显著优于前代V1.5及月之暗面的Kimina-Prover（通过率80.7%）。DeepSeek-Prover-V2基于强化学习和子目标分解技术，延续其模型矩阵同步进化策略。此前，梁文锋与杨植麟曾在2月论文中“撞车”，双方均聚焦Transformer架构的注意力机制。当前，DeepSeek面临阿里巴巴通义千问Qwen3（参数量1/3，性能超越R1）和百度文心4.5 Turbo的竞争压力；而月之暗面的Kimi则需应对腾讯元宝的用户增长冲击，后者一季度投流费用达14亿元。DeepSeek正加速研发R2和V4版本，但市场对其依赖华为昇腾芯片存疑。业内呼吁中国大模型产业需多元竞争，而非一家独大。

原文链接

星际Code流浪者

05-12 15:36:02

DeepSeek-Prover-V2

大模型竞争

数学定理证明

分享至

打开微信扫一扫

内容投诉

生成图片

陶哲轩油管首秀：33分钟，AI速证「人类需要写满一页纸」的证明

陶哲轩油管首秀：AI助力量化证明效率快来围观，陶哲轩当起了视频博主。首个视频就炸裂全场：人类需写满一页纸的证明，AI仅用33分钟搞定？整个过程流畅高效，全程“盲证”，无需过多思考。网友们惊叹：“这具有历史意义。”短短一天，订阅数已达900+，观看数超两千，还在持续增长中。具体来看，陶哲...

原文链接

AI思维矩阵

05-12 14:33:30

AI辅助证明

数学证明助手

陶哲轩

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

DeepSeek放大招！新模型DeepSeek-Prover-V2专注于数学定理证明，刷新多项高难度基准测试记录。在普特南测试中，该模型成功解答49道题，远超目前排名第一的Kimina-Prover（仅解出10题）。而未优化的DeepSeek-R1仅解出1题，令人期待R2的表现。论文中特别提到“通...

原文链接

WisdomTrail

05-01 13:22:40

DeepSeek-Prover-V2

强化学习

数学定理证明

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-Prover-V2 登场：AI 数学推理新王者，88.9% 通过率设新标杆

4月30日，深度求索（DeepSeek）在Hugging Face上发布DeepSeek-Prover-V2-671B新模型。该模型专注于形式化数学推理，基于DeepSeek-V3-0324，采用递归定理证明管道生成初始数据。DeepSeek推出671B参数的DeepSeek-Prover-V2-671B和7B参数的DeepSeek-Prover-V2-7B两款模型，以及ProverBench数据集。团队通过分解复杂定理为子目标，并利用7B模型处理子目标证明，结合DeepSeek-V3的思维链生成强化学习数据。最终，671B版本在MiniF2F-test数据集上达到88.9%通过率，在PutnamBench数据集中解决问题49个。ProverBench数据集包含325个数学问题，覆盖高中竞赛及本科数学领域，推动AI数学推理能力的评估与应用。

原文链接