综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2025年12月,字节Seed AI团队发布数学推理模型Seed Prover 1.5,在IMO 2025竞赛中用16.5小时解决前5道题,获得35分金牌成绩,与谷歌Gemini持平。相比前代模型,新版本通过强化学习和计算资源扩展显著提升性能,并在Putnam竞赛基准中刷新SOTA成绩。技术亮点包括Agentic Prover架构和Sketch Model工具,前者通过多工具交互优化形式化证明效率,后者模拟人类“打草稿”方式分解复杂问题。研究团队采用混合奖励信号训练模型,确保逻辑路径规划的准确性。测试表明,增加计算资源可对数线性提升解题率。
原文链接
12月24日,字节跳动Seed团队发布形式化数学推理专用模型Seed Prover 1.5。新模型在16.5小时内为IMO 2025前5道题目生成完整可编译验证的Lean证明代码,成绩达35/42,超过金牌分数线。技术报告已公开,并将开放API供数学与AI研究者体验。
原文链接
12月24日,字节跳动Seed团队发布新一代形式化数学推理模型Seed Prover 1.5。该模型通过大规模Agentic RL训练,在IMO 2025前5道题目中取得35/42分,达到金牌分数线,并在9小时内完成Putnam 2025赛题中11道的Lean证明代码生成。评估显示,Seed Prover 1.5在Putnam历史评估集中解决88%问题,在硕士难度Fate-H和博士难度Fate-X评估集中分别解决80%和33%问题,刷新多项SOTA表现。技术报告已公开,后续将开放API链接。
原文链接
2025年9月,一款名为Gauss的AI工具引发关注。它仅用三周时间完成了数学家陶哲轩和Alex Kontorovich耗时18个月尚未完全解决的挑战——在Lean中形式化强素数定理(PNT)。Gauss由AI公司Math开发,是首个可协助顶级数学家进行自动形式化的Agent,能将人类数学内容转换为机器可验证的形式语言。其生成了约25000行Lean代码,包含上千个定理,大幅缩短了传统需多年完成的工作。陶哲轩对此表示,AI工具虽然高效,但可能忽略项目中的隐含目标,因此项目组织者需更明确地阐述所有目标。Math公司创始人Christian Szegedy曾因提出Batch Normalization技术获ICML时间检验奖,推动了深度学习发展。网友对Gauss的技术细节充满期待,但官方尚未发布具体技术报告。
原文链接
标题:数学形式化准确率提升至84% | 字节&南大开源
正文:
人工智能在围棋、代码生成等领域已取得显著进展,但在理解并证明数学定理方面仍面临重大挑战。字节跳动Seed团队与南京大学联合发布CriticLean框架,将数学自然语言转化为Lean 4代码的形式化准确率从38%大幅提升至84...
原文链接
标题:陶哲轩转发!DeepMind开源「AI数学证明标准习题集」
DeepMind最新开源了形式化数学猜想库,这一资源集合了经典数学猜想的形式化表述,如解析数论中的朗道问题。此外,库中提供代码函数,便于将自然语言的数学猜想转化为形式化表述。
陶哲轩曾利用Lean工具形式化证明PFR猜想,其第一步正是...
原文链接
形式化证明与大模型:共创可验证的AI数学未来|量子位直播
5月,多个重要进展引发关注:DeepSeek Prover V2发布、陶哲轩的AI数学直播以及谷歌推出的AlphaEvolve。大模型在解数学题方面的表现已成为衡量AI“智能天花板”的关键指标,吸引了众多团队投入研究。
为更好评估AI的数...
原文链接
加载更多
暂无内容