挑战AI数学推理极限:FormalMATH基准发布,最强模型成功率仅16%
由香港中文大学、西湖大学、MAP、浙江大学等机构联合推出的FormalMATH形式化数学推理基准测试,包含5560道经过验证的数学题,覆盖代数、微积分、数论等多个领域。结果显示,即便是在最佳条件下,最强模型的成功率也仅为16.46%,多数模型在微积分等领域的表现接近随机猜测。
FormalMATH是目前规模最大的形式化数学推理基准,是经典基准MiniF2F的22.8倍。研究团队采用“三阶段过滤”框架,大幅降低了人工标注的工作量,最终保留了72.09%的高质量命题。
整体来看,主流LLM证明器的表现普遍低迷,代数领域相对较强,但微积分等领域的表现较差,显示出明显的能力断层。分析表明,现有模型常滥用自动化策略,导致冗余假设、不完整证明等问题。
未来,提升LLM形式化推理能力需从多步规划、跨领域泛化以及人机协同验证三个方面突破。FormalMATH的代码、数据和模型已全面公开,供学术界和工业界共同推动相关技术发展。
原文链接
本文链接:https://kx.umi6.com/article/18278.html
转载请注明文章出处
相关推荐
换一换
Anthropic 性价比最高 AI 模型:Haiku 4.5 登场,1/3 价格实现 Sonnet 4 同级编程能力
2025-10-16 07:47:06
看完最新国产AI写的公众号文章,我慌了!
2025-12-08 21:48:04
帮你识别一下关于AI的那些“装腔作势”
2025-07-24 09:02:57
阿里通义千问推出Qwen3-Max-Thinking尝鲜版
2025-11-04 17:23:23
亚马逊云科技发布 Nova 2 系列 AI 模型,同步推出 Nova Forge 定制服务
2025-12-03 09:12:53
超 98% 参赛者:OpenAI 神秘 AI 模型首次斩获信息学奥赛 IOI 2025 金牌
2025-08-12 11:19:59
马斯克力挺 AMD:在中小型 AI 模型方面相当不错,暗示将降低对英伟达依赖
2025-09-13 16:27:30
腾讯混元开源端到端 AI 模型 Hunyuan-Foley:视频 + 文字 =“电影级”音效
2025-08-28 13:23:33
AI大佬Karpathy焦虑了:作为程序员,我从未感到如此落后
2025-12-29 15:29:17
智谱冲击中国 AI 第一股,CEO 张鹏称模型销售年经常性收入已超 1 亿元
2025-12-02 19:30:45
研究称 AI 模型或将形成自己的“生存驱动力”,避免被人类关闭命运
2025-10-27 08:48:45
放开成人内容,OpenAI是为了提升性能?
2025-10-22 17:49:49
AI 模型加速创意呈现 华硕RTX50显卡为创作添彩!
2026-03-25 17:45:59
762 文章
622714 浏览
24小时热文
更多
-
2026-04-24 17:27:38 -
2026-04-24 17:26:33 -
2026-04-24 17:25:23