1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:数学形式化准确率提升至84% | 字节&南大开源

正文:
人工智能在围棋、代码生成等领域已取得显著进展,但在理解并证明数学定理方面仍面临重大挑战。字节跳动Seed团队与南京大学联合发布CriticLean框架,将数学自然语言转化为Lean 4代码的形式化准确率从38%大幅提升至84%。该框架通过强化学习训练的CriticLeanGPT模型,精准判断形式化代码是否符合原始语义,并结合迭代优化机制,确保生成的定理证明既语法正确又逻辑忠实。论文和代码已开源。

数学形式化的挑战

将自然语言描述的数学命题转化为机器可验证的形式化代码是自动化定理证明的核心难题,主要瓶颈包括:
1. 语义鸿沟:隐含条件难以映射为形式逻辑,导致翻译偏差;
2. 评价缺位:现有方法对形式化结果的评估不够全面,难以识别逻辑矛盾;
3. 数据瓶颈:现有数据集规模小、多样性不足,限制了模型应对复杂问题的能力。

CriticLean框架的创新

CriticLean框架通过引入强化学习的Critic模型,结合编译器反馈和语义评估,系统性解决上述问题。其核心是CriticLeanGPT模型,基于Qwen2.5和Qwen3系列模型训练,分为两步:
1. 有监督微调(SFT):使用4.8万条包含数学语句和形式化代码的数据进行训练,增强语义判断能力;
2. 强化学习优化(RL):采用GRPO算法,以判断准确性和格式规范为奖励信号,提升评估能力。

该模型能识别12类常见错误,如类型错误(24.9%)、数学表示错误(23.8%),并发现“代码编译通过但逻辑偏离”的隐性问题。

CriticLeanBench基准测试

团队构建了首个聚焦形式化任务语义评估的基准测试CriticLeanBench,涵盖多种错误类型和数学领域。实验表明,CriticLeanGPT在500组测试样本中的准确率达87%,显著优于GPT-4o(67.8%)和Claude 3.5(74.2%)。

FineLeanCorpus高质量数据集

依托CriticLean框架,团队构建了包含28.5万条样本的高质量数学形式化数据集FineLeanCorpus,覆盖16个领域,人工抽检准确率达84%以上。相比现有数据集,其难度分布更均衡,主题覆盖更全面。

实验结果

应用CriticLean框架后,自动形式化流程的准确率从38%提升至84%,其中语义评估贡献了30个百分点的提升。

论文链接:https://arxiv.org/pdf/2507.06181
项目链接:https://github.com/multimodal-art-projection/CriticLean

原文链接
本文链接:https://kx.umi6.com/article/22744.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
字节Seed数学新模型,SOTA了
2025-08-04 18:00:27
河南师傅,左手扳手,右手飞书,竟然能搞数据分析!
2026-04-23 23:34:55
存储“超级周期”进入业绩兑现阶段
2026-04-24 06:56:46
RAM——复杂场景下多人3D人体运动重建新框架 | CVPR 2026
2026-04-24 14:15:34
中信证券:预计二季度AI行情开始发散 建议关注被动元件、消费电子等细分板块
2026-04-24 09:04:28
美格智能发布新一代中央计算架构5G舱联AI模组
2026-04-24 15:18:33
中金公司:公募一季度大幅加仓偏AI产业链硬件端通信行业 减仓有色和电子
2026-04-23 09:00:20
特斯拉开源硬件,中国公司回应来了:直接把机器人大脑开源了
2026-04-23 09:57:38
SpaceX受邀加入开发“金穹顶”软件的行业团队
2026-04-23 03:43:35
挖漏洞何必Mythos,国产智能体早跑通了
2026-04-23 08:53:48
海亮科服成为浙江首家教育科技独角兽
2026-04-23 16:17:26
贝莱德全球首席投资策略师称在人工智能热潮中看好半导体和硬件股
2026-04-24 23:43:31
赛力斯申请注册天行平台商标
2026-04-23 14:10:41
24小时热文
更多
扫一扫体验小程序