1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:国产大模型“考研数学”成绩单出炉,哪家AI能上岸?

日前,清华大学人工智能研究院基础模型研究中心团队晒出了国内外13个模型(包括基础模型和深度推理模型)在2025年考研数学(一、二、三)上的成绩。结果显示,OpenAI o1 最强,但对国产头部模型(如GLM-zero-preview、QwQ)的领先优势不大。

具体来看,这些模型的考研数学成绩均达到120+。最强模型o1平均得分141.3分,在66道题中仅答错3.5题。国产模型GLM-zero-preview平均138.7分,QwQ平均137.0分,分差仅在个位数水平。第三梯队模型DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3的分数也在120分以上。

值得注意的是,GPT-4在本次测试中仅获70.7分,排名倒数第一,表明在过去一年里,语言模型在数学推理领域取得了显著进步。

此外,评测团队对比了各模型厂商在深度思考能力优化方面的进展,结果显示OpenAI o1相较于基础模型GPT-4o的提升幅度最大,达57.3分。智谱和阿里的模型紧随其后,分别提升了47.0分和46.7分,接近OpenAI的21.0分。

评测团队还采用了统一的网页端进行测试,以确保公正性和准确性。

原文链接
本文链接:https://kx.umi6.com/article/11661.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
苹果的面子,谷歌的里子
2025-09-11 08:51:03
超 90% 选择国产模型:我国生成式 AI 用户规模达 5.15 亿人、2025 上半年环比增长 106.6%
2025-10-18 10:33:18
摩根士丹利Stan Delaney:下一轮投资机会将集中于借助AI开拓新兴业务的企业
2025-10-18 19:38:57
高德地图:你用AI骗了我两次
2025-09-16 22:20:43
詹姆斯・卡梅隆谈 AI:能和人类一样富有创造力,但无法拥有独特生活体验
2025-09-20 19:33:53
Figma股价热情仅存1天
2025-08-12 14:18:53
腾讯副总裁蔡学忠:看好 AI 的长期价值,内部 30% 代码由人工智能在写
2025-07-27 11:54:05
AI是中小企业最后的机会
2025-09-22 08:56:11
“作弊幽灵”就是AI超级入口
2025-07-26 00:33:19
微软为了AI,买了17亿美金的屎
2025-07-28 12:11:42
韩国的国家级风险:三星怎么在AI时代掉队了?
2025-08-17 19:39:18
英特尔这些年的「买卖」
2025-08-01 15:05:47
日本将构建脑活动数据库,目标十年后让 AI 有“接近人类五感”的能力
2025-10-13 12:57:14
24小时热文
更多
扫一扫体验小程序