1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:数学形式化准确率提升至84% | 字节&南大开源

正文:
人工智能在围棋、代码生成等领域已取得显著进展,但在理解并证明数学定理方面仍面临重大挑战。字节跳动Seed团队与南京大学联合发布CriticLean框架,将数学自然语言转化为Lean 4代码的形式化准确率从38%大幅提升至84%。该框架通过强化学习训练的CriticLeanGPT模型,精准判断形式化代码是否符合原始语义,并结合迭代优化机制,确保生成的定理证明既语法正确又逻辑忠实。论文和代码已开源。

数学形式化的挑战

将自然语言描述的数学命题转化为机器可验证的形式化代码是自动化定理证明的核心难题,主要瓶颈包括:
1. 语义鸿沟:隐含条件难以映射为形式逻辑,导致翻译偏差;
2. 评价缺位:现有方法对形式化结果的评估不够全面,难以识别逻辑矛盾;
3. 数据瓶颈:现有数据集规模小、多样性不足,限制了模型应对复杂问题的能力。

CriticLean框架的创新

CriticLean框架通过引入强化学习的Critic模型,结合编译器反馈和语义评估,系统性解决上述问题。其核心是CriticLeanGPT模型,基于Qwen2.5和Qwen3系列模型训练,分为两步:
1. 有监督微调(SFT):使用4.8万条包含数学语句和形式化代码的数据进行训练,增强语义判断能力;
2. 强化学习优化(RL):采用GRPO算法,以判断准确性和格式规范为奖励信号,提升评估能力。

该模型能识别12类常见错误,如类型错误(24.9%)、数学表示错误(23.8%),并发现“代码编译通过但逻辑偏离”的隐性问题。

CriticLeanBench基准测试

团队构建了首个聚焦形式化任务语义评估的基准测试CriticLeanBench,涵盖多种错误类型和数学领域。实验表明,CriticLeanGPT在500组测试样本中的准确率达87%,显著优于GPT-4o(67.8%)和Claude 3.5(74.2%)。

FineLeanCorpus高质量数据集

依托CriticLean框架,团队构建了包含28.5万条样本的高质量数学形式化数据集FineLeanCorpus,覆盖16个领域,人工抽检准确率达84%以上。相比现有数据集,其难度分布更均衡,主题覆盖更全面。

实验结果

应用CriticLean框架后,自动形式化流程的准确率从38%提升至84%,其中语义评估贡献了30个百分点的提升。

论文链接:https://arxiv.org/pdf/2507.06181
项目链接:https://github.com/multimodal-art-projection/CriticLean

原文链接
本文链接:https://kx.umi6.com/article/22744.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源
2025-07-31 09:01:37
GPT-5 难产内幕曝光:核心团队遭挖空,推理魔咒难破,靠英伟达续命
2025-08-02 17:22:34
Figma上市飙涨:不是AI原生,却成了“天选之子”
2025-08-01 18:07:15
博主质疑谷歌“AI 试衣”存在隐私风险,竟遭对方高管拉黑
2025-08-02 22:25:25
中国电子学会:中国人形机器人整体水平处全球第一方阵
2025-08-02 22:27:46
AI,让这些公司赚翻了
2025-08-02 16:19:34
三家混战,大模型重回2023
2025-08-03 11:35:50
多项力压 Grok 4、OpenAI o3,谷歌推出 Gemini 2.5 Deep Think 模型
2025-08-01 23:08:15
iPhone大卖,给不了苹果安全感
2025-08-03 11:36:33
英伟达800V架构重塑产业链 AIDC供电效率将迎变革
2025-08-01 15:07:43
OpenAI据悉已融资83亿美元,估值达到3000亿美元
2025-08-02 00:08:54
你在为Figma上市欢呼,Figma可不敢为AI狂欢
2025-08-02 11:16:32
大摩报告“扎心”三星:与特斯拉大单仅影响台积电1%的收入
2025-08-03 18:41:18
24小时热文
更多
扫一扫体验小程序