标题:国产大模型“考研数学”成绩单出炉,哪家AI能上岸?
日前,清华大学人工智能研究院基础模型研究中心团队晒出了国内外13个模型(包括基础模型和深度推理模型)在2025年考研数学(一、二、三)上的成绩。结果显示,OpenAI o1 最强,但对国产头部模型(如GLM-zero-preview、QwQ)的领先优势不大。
具体来看,这些模型的考研数学成绩均达到120+。最强模型o1平均得分141.3分,在66道题中仅答错3.5题。国产模型GLM-zero-preview平均138.7分,QwQ平均137.0分,分差仅在个位数水平。第三梯队模型DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3的分数也在120分以上。
值得注意的是,GPT-4在本次测试中仅获70.7分,排名倒数第一,表明在过去一年里,语言模型在数学推理领域取得了显著进步。
此外,评测团队对比了各模型厂商在深度思考能力优化方面的进展,结果显示OpenAI o1相较于基础模型GPT-4o的提升幅度最大,达57.3分。智谱和阿里的模型紧随其后,分别提升了47.0分和46.7分,接近OpenAI的21.0分。
评测团队还采用了统一的网页端进行测试,以确保公正性和准确性。
原文链接
本文链接:https://kx.umi6.com/article/11661.html
转载请注明文章出处
相关推荐
换一换
Meta 深化与 Arm 战略合作,AI 排名和推荐系统将使用 Neoverse IP 芯片
2025-10-16 09:49:47
无视GDP:AI的任性崛起
2025-10-03 21:46:48
余承东被任命为华为公司IRB主任
2025-09-29 21:15:03
OpenAI的「梦醒时分」
2025-12-09 15:41:20
马斯克:AI 将像超音速海啸一样,迅速取代数字导向型办公室工作
2025-11-08 18:53:01
谷歌距4万亿美元仅一步之遥 创始人跃升全球第二、第三富豪
2025-11-26 16:57:14
AI的尽头是核电
2025-11-26 09:36:04
姚顺宇离职背后:国产大模型已经上桌了
2025-10-11 10:15:41
CoreWeave:算力时代,手握「金铲铲」
2025-10-11 09:31:07
Take-Two CEO 泽尔尼克:AI 不可能生成一款堪比《GTA》的游戏
2025-10-30 08:29:35
从 AI 潜在牺牲品到赢家,谷歌在 ChatGPT 冲击下逆袭
2025-11-25 00:21:57
微软 AI 部门 CEO 苏莱曼:我们要开发出能让家长放心给孩子用的 AI
2025-10-24 14:40:25
谷歌 CEO 皮查伊畅谈往事:当年“小公司”OpenAI 的 ChatGPT 如何影响我们
2025-10-17 09:11:10
614 文章
372761 浏览
24小时热文
更多
-
2025-12-11 00:19:01 -
2025-12-11 00:15:55 -
2025-12-10 23:15:05