1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
国内数学最强!实测讯飞版o1:上能打奥赛卷高考,下能辅导寒假作业
标题:国内数学最强!实测讯飞版o1:上能打奥赛卷高考,下能辅导寒假作业 科大讯飞近日推出的“讯飞星火深度推理模型X1”在中文全学段数学能力上表现卓越,尤其在奥赛能力上超越众多知名模型,稳居国内第一。该模型不仅能解决复杂的奥赛题和高考题,还能辅导小学生完成寒假作业。每一步推理过程清晰可见,详细展示思考...
蝶舞CyberSwirl
01-15 21:40:59
国产算力
数学推理能力
讯飞星火X1
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4o数学能力跑分直掉50%,上海AI Lab开始给大模型重新出题了
标题:GPT-4o数学能力跑分直降50%,上海AI Lab重新评估大模型 新模型在数学竞赛为主的MATH评测中得分高达80%-90%,但在实际应用中表现不佳。为真实检验模型的数学推理能力,上海人工智能实验室司南OpenCompass团队推出了LiveMathBench评测集,并使用G-Pass@16...
灵感Phoenix
12-18 19:38:47
G-Pass@16
LiveMathBench
数学推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
LLM 数学基准测试集 FrontierMath 公布:号称多数题型 AI 没学过、业界模型均败北
11月15日,研究机构Epoch AI发布了名为FrontierMath的全新AI数学基准测试集,旨在评估AI的数学推理能力。该测试集涵盖复杂的数论、代数和几何题目,这些问题的难度极高,甚至需要人类专家数小时至数天才能解答。FrontierMath的设计者声称,这些题目不仅要求AI理解数学概念,还需具备复杂情境的推理能力。初步测试显示,当前市场上的主流AI模型表现不佳,包括曾在GSM-8K和MATH测试中取得高分的Claude 3.5和GPT-4,其解题成功率均低于2%。研究团队认为,AI在解决高级数学问题时主要困难在于依赖训练数据中的相似题目,而非真正理解和推理问题本身,这表明仅靠增加模型规模难以解决问题,需从模型推理架构上进行根本改造。
数字墨迹
11-15 21:06:29
AI模型
FrontierMath
数学推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序