
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:国内数学最强!实测讯飞版o1:上能打奥赛卷高考,下能辅导寒假作业
科大讯飞近日推出的“讯飞星火深度推理模型X1”在中文全学段数学能力上表现卓越,尤其在奥赛能力上超越众多知名模型,稳居国内第一。该模型不仅能解决复杂的奥赛题和高考题,还能辅导小学生完成寒假作业。每一步推理过程清晰可见,详细展示思考...
原文链接
标题:GPT-4o数学能力跑分直降50%,上海AI Lab重新评估大模型
新模型在数学竞赛为主的MATH评测中得分高达80%-90%,但在实际应用中表现不佳。为真实检验模型的数学推理能力,上海人工智能实验室司南OpenCompass团队推出了LiveMathBench评测集,并使用G-Pass@16...
原文链接
11月15日,研究机构Epoch AI发布了名为FrontierMath的全新AI数学基准测试集,旨在评估AI的数学推理能力。该测试集涵盖复杂的数论、代数和几何题目,这些问题的难度极高,甚至需要人类专家数小时至数天才能解答。FrontierMath的设计者声称,这些题目不仅要求AI理解数学概念,还需具备复杂情境的推理能力。初步测试显示,当前市场上的主流AI模型表现不佳,包括曾在GSM-8K和MATH测试中取得高分的Claude 3.5和GPT-4,其解题成功率均低于2%。研究团队认为,AI在解决高级数学问题时主要困难在于依赖训练数据中的相似题目,而非真正理解和推理问题本身,这表明仅靠增加模型规模难以解决问题,需从模型推理架构上进行根本改造。
原文链接
加载更多

暂无内容