1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

挑战AI数学推理极限:FormalMATH基准发布,最强模型成功率仅16%

由香港中文大学、西湖大学、MAP、浙江大学等机构联合推出的FormalMATH形式化数学推理基准测试,包含5560道经过验证的数学题,覆盖代数、微积分、数论等多个领域。结果显示,即便是在最佳条件下,最强模型的成功率也仅为16.46%,多数模型在微积分等领域的表现接近随机猜测。

FormalMATH是目前规模最大的形式化数学推理基准,是经典基准MiniF2F的22.8倍。研究团队采用“三阶段过滤”框架,大幅降低了人工标注的工作量,最终保留了72.09%的高质量命题。

整体来看,主流LLM证明器的表现普遍低迷,代数领域相对较强,但微积分等领域的表现较差,显示出明显的能力断层。分析表明,现有模型常滥用自动化策略,导致冗余假设、不完整证明等问题。

未来,提升LLM形式化推理能力需从多步规划、跨领域泛化以及人机协同验证三个方面突破。FormalMATH的代码、数据和模型已全面公开,供学术界和工业界共同推动相关技术发展。

原文链接
本文链接:https://kx.umi6.com/article/18278.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
远超摩尔定律!AI模型每7个月能力翻倍 美国智库:或瓦解民主制度
2025-07-06 16:15:29
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
Meta 砸 143 亿美元投资 Scale AI 仅数月,双方合作关系出现裂痕
2025-08-31 10:00:15
卡内基梅隆大学推出 AI 模型“乐高 GPT”,敲敲键盘就能生成可搭建积木
2025-05-09 22:57:27
觉醒第一步?OpenAI模型在研究中违抗命令,竟然篡改关机脚本
2025-05-26 22:57:10
DeepSeek开源新模型,数学推理能力大提升
2025-05-01 09:16:24
谷歌发布 Gemma 3n 端侧多模态模型,2GB 内存也能玩转 AI
2025-05-21 15:08:05
超 98% 参赛者:OpenAI 神秘 AI 模型首次斩获信息学奥赛 IOI 2025 金牌
2025-08-12 11:19:59
帮你识别一下关于AI的那些“装腔作势”
2025-07-24 09:02:57
扎克伯格不挖人了?消息称 Meta 考虑采用 OpenAI 或谷歌的 AI 模型
2025-08-30 10:50:03
谷歌 DeepMind 开发 DolphinGemma AI 模型,助力海豚“语言”研究
2025-04-15 08:21:03
快手发布可灵 2.0 视频生成模型及可图 2.0 图像生成模型
2025-04-15 15:33:39
理想同学接入 DeepSeek-R1-0528 最新模型
2025-06-12 19:38:31
24小时热文
更多
扫一扫体验小程序