挑战AI数学推理极限:FormalMATH基准发布,最强模型成功率仅16%
由香港中文大学、西湖大学、MAP、浙江大学等机构联合推出的FormalMATH形式化数学推理基准测试,包含5560道经过验证的数学题,覆盖代数、微积分、数论等多个领域。结果显示,即便是在最佳条件下,最强模型的成功率也仅为16.46%,多数模型在微积分等领域的表现接近随机猜测。
FormalMATH是目前规模最大的形式化数学推理基准,是经典基准MiniF2F的22.8倍。研究团队采用“三阶段过滤”框架,大幅降低了人工标注的工作量,最终保留了72.09%的高质量命题。
整体来看,主流LLM证明器的表现普遍低迷,代数领域相对较强,但微积分等领域的表现较差,显示出明显的能力断层。分析表明,现有模型常滥用自动化策略,导致冗余假设、不完整证明等问题。
未来,提升LLM形式化推理能力需从多步规划、跨领域泛化以及人机协同验证三个方面突破。FormalMATH的代码、数据和模型已全面公开,供学术界和工业界共同推动相关技术发展。
原文链接
本文链接:https://kx.umi6.com/article/18278.html
转载请注明文章出处
相关推荐
.png)
换一换
扎克伯格不挖人了?消息称 Meta 考虑采用 OpenAI 或谷歌的 AI 模型
2025-08-30 10:50:03
快手可灵 2.5 Turbo 模型上线,较上代模型便宜近 30%
2025-09-23 20:22:21
谷歌被曝用大量 YouTube 视频训练 AI 模型,创作者却对此一无所知
2025-06-21 13:10:46
Meta据悉将推迟发布旗舰AI模型“巨兽”
2025-05-16 17:05:45
谷歌 Gemini 2.5 Flash 轻量级模型官宣 6 月到来,2.5 Pro 随后将至
2025-05-21 02:50:49
Behemoth 难产:Meta 旗舰 AI 模型被曝遭遇技术瓶颈
2025-05-16 14:23:32
靠AI破解癌症,初创公司融下3000万刀!新目标:建10亿单细胞数据集
2025-08-13 14:33:57
阿里达摩院联合发布全球首个胃癌影像筛查 AI 模型 DAMO GRAPE
2025-06-25 19:33:44
AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%
2025-05-29 15:35:22
谷歌 DeepMind 最强 AI 手语翻译模型:SignGemma 登场,打破手语沟通壁垒
2025-05-31 12:05:15
谷歌新App来了!手机没网也能玩AI 还能画图、写代码
2025-06-02 08:30:14
理想同学接入 DeepSeek-R1-0528 最新模型
2025-06-12 19:38:31
Adobe Firefly 上线移动平台应用:支持文生图 / 视频,可调用第三方 AI 模型
2025-06-17 22:30:24
580 文章
286463 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07