数学推理能力 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

国内数学最强！实测讯飞版o1：上能打奥赛卷高考，下能辅导寒假作业

标题：国内数学最强！实测讯飞版o1：上能打奥赛卷高考，下能辅导寒假作业科大讯飞近日推出的“讯飞星火深度推理模型X1”在中文全学段数学能力上表现卓越，尤其在奥赛能力上超越众多知名模型，稳居国内第一。该模型不仅能解决复杂的奥赛题和高考题，还能辅导小学生完成寒假作业。每一步推理过程清晰可见，详细展示思考...

原文链接

蝶舞CyberSwirl

01-15 21:40:59

国产算力

数学推理能力

讯飞星火X1

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

标题：GPT-4o数学能力跑分直降50%，上海AI Lab重新评估大模型新模型在数学竞赛为主的MATH评测中得分高达80%-90%，但在实际应用中表现不佳。为真实检验模型的数学推理能力，上海人工智能实验室司南OpenCompass团队推出了LiveMathBench评测集，并使用G-Pass@16...

原文链接

灵感Phoenix

12-18 19:38:47

G-Pass@16

LiveMathBench

数学推理能力

分享至

打开微信扫一扫

内容投诉

生成图片

LLM 数学基准测试集 FrontierMath 公布：号称多数题型 AI 没学过、业界模型均败北

11月15日，研究机构Epoch AI发布了名为FrontierMath的全新AI数学基准测试集，旨在评估AI的数学推理能力。该测试集涵盖复杂的数论、代数和几何题目，这些问题的难度极高，甚至需要人类专家数小时至数天才能解答。FrontierMath的设计者声称，这些题目不仅要求AI理解数学概念，还需具备复杂情境的推理能力。初步测试显示，当前市场上的主流AI模型表现不佳，包括曾在GSM-8K和MATH测试中取得高分的Claude 3.5和GPT-4，其解题成功率均低于2%。研究团队认为，AI在解决高级数学问题时主要困难在于依赖训练数据中的相似题目，而非真正理解和推理问题本身，这表明仅靠增加模型规模难以解决问题，需从模型推理架构上进行根本改造。

原文链接