1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:国产大模型“考研数学”成绩单出炉,哪家AI能上岸?

日前,清华大学人工智能研究院基础模型研究中心团队晒出了国内外13个模型(包括基础模型和深度推理模型)在2025年考研数学(一、二、三)上的成绩。结果显示,OpenAI o1 最强,但对国产头部模型(如GLM-zero-preview、QwQ)的领先优势不大。

具体来看,这些模型的考研数学成绩均达到120+。最强模型o1平均得分141.3分,在66道题中仅答错3.5题。国产模型GLM-zero-preview平均138.7分,QwQ平均137.0分,分差仅在个位数水平。第三梯队模型DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3的分数也在120分以上。

值得注意的是,GPT-4在本次测试中仅获70.7分,排名倒数第一,表明在过去一年里,语言模型在数学推理领域取得了显著进步。

此外,评测团队对比了各模型厂商在深度思考能力优化方面的进展,结果显示OpenAI o1相较于基础模型GPT-4o的提升幅度最大,达57.3分。智谱和阿里的模型紧随其后,分别提升了47.0分和46.7分,接近OpenAI的21.0分。

评测团队还采用了统一的网页端进行测试,以确保公正性和准确性。

原文链接
本文链接:https://kx.umi6.com/article/11661.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型再「战」高考:从一本直升 985
2025-06-27 09:05:45
中信证券:中报季还是以结构性机会为主 预计AI和军工是三季度寻找结构性机会的重心
2025-06-29 16:33:18
阿里巴巴:将AI视为业务增长的核心驱动力 全力投入AI基础设施和技术先进性建设
2025-06-26 20:05:25
24小时热文
更多
扫一扫体验小程序