1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:数学形式化准确率提升至84% | 字节&南大开源

正文:
人工智能在围棋、代码生成等领域已取得显著进展,但在理解并证明数学定理方面仍面临重大挑战。字节跳动Seed团队与南京大学联合发布CriticLean框架,将数学自然语言转化为Lean 4代码的形式化准确率从38%大幅提升至84%。该框架通过强化学习训练的CriticLeanGPT模型,精准判断形式化代码是否符合原始语义,并结合迭代优化机制,确保生成的定理证明既语法正确又逻辑忠实。论文和代码已开源。

数学形式化的挑战

将自然语言描述的数学命题转化为机器可验证的形式化代码是自动化定理证明的核心难题,主要瓶颈包括:
1. 语义鸿沟:隐含条件难以映射为形式逻辑,导致翻译偏差;
2. 评价缺位:现有方法对形式化结果的评估不够全面,难以识别逻辑矛盾;
3. 数据瓶颈:现有数据集规模小、多样性不足,限制了模型应对复杂问题的能力。

CriticLean框架的创新

CriticLean框架通过引入强化学习的Critic模型,结合编译器反馈和语义评估,系统性解决上述问题。其核心是CriticLeanGPT模型,基于Qwen2.5和Qwen3系列模型训练,分为两步:
1. 有监督微调(SFT):使用4.8万条包含数学语句和形式化代码的数据进行训练,增强语义判断能力;
2. 强化学习优化(RL):采用GRPO算法,以判断准确性和格式规范为奖励信号,提升评估能力。

该模型能识别12类常见错误,如类型错误(24.9%)、数学表示错误(23.8%),并发现“代码编译通过但逻辑偏离”的隐性问题。

CriticLeanBench基准测试

团队构建了首个聚焦形式化任务语义评估的基准测试CriticLeanBench,涵盖多种错误类型和数学领域。实验表明,CriticLeanGPT在500组测试样本中的准确率达87%,显著优于GPT-4o(67.8%)和Claude 3.5(74.2%)。

FineLeanCorpus高质量数据集

依托CriticLean框架,团队构建了包含28.5万条样本的高质量数学形式化数据集FineLeanCorpus,覆盖16个领域,人工抽检准确率达84%以上。相比现有数据集,其难度分布更均衡,主题覆盖更全面。

实验结果

应用CriticLean框架后,自动形式化流程的准确率从38%提升至84%,其中语义评估贡献了30个百分点的提升。

论文链接:https://arxiv.org/pdf/2507.06181
项目链接:https://github.com/multimodal-art-projection/CriticLean

原文链接
本文链接:https://kx.umi6.com/article/22744.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
字节Seed数学新模型,SOTA了
2025-08-04 18:00:27
超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源
2025-07-31 09:01:37
火山引擎上线ArkClaw:开箱即用的云上SaaS版OpenClaw
2026-03-09 15:55:48
“小龙虾”好玩但太费钱 国产GPU厂商云天励飞放言:成本将降低100万倍
2026-03-06 15:11:03
抖音电商打击AI虚假营销:处置仿冒李亚鹏、王丽云等名人侵权内容超16万条
2026-03-09 19:06:14
英伟达投资的数据中心公司Nscale完成20亿美元融资 估值达146亿美元
2026-03-09 18:02:36
AI将胜任80%岗位!亿万富翁:如今5岁儿童成年后将无需再为生存而工作
2026-03-06 15:12:02
超算互联网:OpenClaw正式打通飞书、企业微信
2026-03-09 14:48:46
AI短剧《霍去病》走红!导演澄清制作细节:3000元仅算力成本
2026-03-08 17:25:18
劝视频博主别拿龙虾起号 7×24小时全自动 碳基生物真卷不过
2026-03-07 00:47:12
高中生AI创业,现在只招龙虾员工:每月成本2800
2026-03-08 18:28:34
Anthropic据悉试图挽回美军AI合作
2026-03-05 21:59:06
全网刷屏的“龙虾” 真的劝你不要盲目跟风!
2026-03-09 15:51:25
24小时热文
更多
扫一扫体验小程序