1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

挑战AI数学推理极限:FormalMATH基准发布,最强模型成功率仅16%

由香港中文大学、西湖大学、MAP、浙江大学等机构联合推出的FormalMATH形式化数学推理基准测试,包含5560道经过验证的数学题,覆盖代数、微积分、数论等多个领域。结果显示,即便是在最佳条件下,最强模型的成功率也仅为16.46%,多数模型在微积分等领域的表现接近随机猜测。

FormalMATH是目前规模最大的形式化数学推理基准,是经典基准MiniF2F的22.8倍。研究团队采用“三阶段过滤”框架,大幅降低了人工标注的工作量,最终保留了72.09%的高质量命题。

整体来看,主流LLM证明器的表现普遍低迷,代数领域相对较强,但微积分等领域的表现较差,显示出明显的能力断层。分析表明,现有模型常滥用自动化策略,导致冗余假设、不完整证明等问题。

未来,提升LLM形式化推理能力需从多步规划、跨领域泛化以及人机协同验证三个方面突破。FormalMATH的代码、数据和模型已全面公开,供学术界和工业界共同推动相关技术发展。

原文链接
本文链接:https://kx.umi6.com/article/18278.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Anthropic 性价比最高 AI 模型:Haiku 4.5 登场,1/3 价格实现 Sonnet 4 同级编程能力
2025-10-16 07:47:06
马斯克的最强 AI 模型 Grok 4 现已免费开放,非订阅用户每天可限量使用
2025-08-11 10:02:03
谷歌最强 AI 模型 Gemini 3 正式登场:发布即登顶 LMArena,号称迄今最智能
2025-11-19 08:02:25
27、42、73,DeepSeek这些大模型竟都喜欢这些数
2025-06-19 15:53:04
美国法官裁定:Meta用书训练AI模型属“合理使用”范畴
2025-06-26 21:02:38
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
靠AI破解癌症,初创公司融下3000万刀!新目标:建10亿单细胞数据集
2025-08-13 14:33:57
Nature刊文称“AI可模拟人类心智”,Science同日强烈质疑
2025-07-21 09:14:02
智谱冲击中国 AI 第一股,CEO 张鹏称模型销售年经常性收入已超 1 亿元
2025-12-02 19:30:45
英伟达三大AI重磅产品齐发,GPU服务器性能暴增18倍
2025-08-13 16:37:45
谷歌悄然推出“AI Edge Gallery”应用:可在手机本地运行 AI 模型
2025-06-01 08:17:07
美亿万富翁投资人马克・库班呼吁:在 AI 模型上投放广告应被视作违法行为
2025-07-28 19:18:03
骁龙X2 Elite NPU算力达80 TOPS 遥遥领先AMD/Intel!为何如此之高
2025-10-19 17:51:16
24小时热文
更多
扫一扫体验小程序