挑战AI数学推理极限:FormalMATH基准发布,最强模型成功率仅16%
由香港中文大学、西湖大学、MAP、浙江大学等机构联合推出的FormalMATH形式化数学推理基准测试,包含5560道经过验证的数学题,覆盖代数、微积分、数论等多个领域。结果显示,即便是在最佳条件下,最强模型的成功率也仅为16.46%,多数模型在微积分等领域的表现接近随机猜测。
FormalMATH是目前规模最大的形式化数学推理基准,是经典基准MiniF2F的22.8倍。研究团队采用“三阶段过滤”框架,大幅降低了人工标注的工作量,最终保留了72.09%的高质量命题。
整体来看,主流LLM证明器的表现普遍低迷,代数领域相对较强,但微积分等领域的表现较差,显示出明显的能力断层。分析表明,现有模型常滥用自动化策略,导致冗余假设、不完整证明等问题。
未来,提升LLM形式化推理能力需从多步规划、跨领域泛化以及人机协同验证三个方面突破。FormalMATH的代码、数据和模型已全面公开,供学术界和工业界共同推动相关技术发展。
原文链接
本文链接:https://kx.umi6.com/article/18278.html
转载请注明文章出处
相关推荐
换一换
英伟达三大AI重磅产品齐发,GPU服务器性能暴增18倍
2025-08-13 16:37:45
微软推出其首款自研 AI 模型:MAI-Voice-1 秒级生成音频,MAI-1-preview 剑指 Copilot 文本场景
2025-08-29 08:34:31
Hugging Face 联合创始人沃尔夫:当前的 AI 模型不太可能带来重大科学突破
2025-10-02 16:17:29
超 98% 参赛者:OpenAI 神秘 AI 模型首次斩获信息学奥赛 IOI 2025 金牌
2025-08-12 11:19:59
大厂AI各走「开源」路
2025-10-17 09:09:57
美国政府将干预新AI模型发布:全球五大前沿实验室均已加入
2026-05-06 17:28:57
阿里巴巴旗下AI模型有效助力胰腺癌早筛
2026-01-06 17:20:22
马斯克xAI新模型上线,通过“50米外洗车店”测试,回答偏好高度贴合老马本人
2026-02-18 16:31:22
国际首次!肠癌筛查AI模型如何帮助患者实现“无感”检测
2026-05-04 22:45:10
马斯克力挺 AMD:在中小型 AI 模型方面相当不错,暗示将降低对英伟达依赖
2025-09-13 16:27:30
谷歌最强模型 Gemini 3.0 被曝 10 月 22 日登场:延迟、成本更低,编程等性能更强
2025-10-15 09:32:44
研究称 AI 模型或将形成自己的“生存驱动力”,避免被人类关闭命运
2025-10-27 08:48:45
放开成人内容,OpenAI是为了提升性能?
2025-10-22 17:49:49
787 文章
715246 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41