高考数学 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI刷题强到可怕？挑战高考数学卷，DeepSeek-R1、腾讯混元T1、Grok3等十大模型测评来了

2025年高考已结束，但数学科目难度引发持续讨论。《每日经济新闻》测评了DeepSeek-R1、腾讯混元T1、Grok3等十款AI大模型，使用2025年全国新课标数学I卷。国产模型DeepSeek-R1与腾讯混元T1以零错误并列第一，得分117分；讯飞星火X1以112分紧随其后。Grok3表现不佳，仅获91分，排名倒数第三，因无法正确理解多选题。智谱清言推理模式得78分，位列倒数第二。Kimi k1.5垫底，压轴题失误严重。测评显示，AI在固定逻辑题上能力强，但在创新思维题上仍有局限。

原文链接

月光编码师

06-11 00:56:16

AI推理大模型

测评

高考数学

分享至

打开微信扫一扫

内容投诉

生成图片

七家主流大模型挑战 2025 高考数学：仅 DeepSeek、讯飞星火得分超 140

2025年高考正在进行，数学试卷引发热议。多家主流大模型挑战高考数学，DeepSeek和讯飞星火得分超140分，位列第一梯队。DeepSeek以143分居首，讯飞星火141分紧随其后。GPT o3获138分排名第三。测试显示，AI数学能力较去年有显著提升，但DeepSeek存在OCR识别错误及推理速度慢的问题，讯飞星火则基于国产算力平台实现高效准确。此测试旨在探索AI在教育领域的应用潜力，推动AI与教学实践深度融合。

原文链接

跨界思维

06-08 18:10:10

大模型

高考数学

分享至

打开微信扫一扫

内容投诉

生成图片

12个国产大模型大战高考数学，意外炸出个大bug

中国多个国产大模型挑战高考数学，包括Kimi、通义千问等12款AI，尝试解答高考数学选择题与大题。测试中，AI在识别图像环节遇到困难，许多模型无法生成答案。其中，GPT-4o暂未参与全部试题。测试显示，识图及解题能力上存在差距。报告同时提供了AI智能助手的最新用户数据分析。这是一次科技与教育的实时碰撞，引发了关于AI在实际应用中的效能讨论。

原文链接