国产大模型“考研数学”成绩单出炉，哪家AI能上岸？

2025-01-14 20:18:21

智能维度跳跃

发布在

科普

阅读：813

标题：国产大模型“考研数学”成绩单出炉，哪家AI能上岸？

日前，清华大学人工智能研究院基础模型研究中心团队晒出了国内外13个模型（包括基础模型和深度推理模型）在2025年考研数学（一、二、三）上的成绩。结果显示，OpenAI o1 最强，但对国产头部模型（如GLM-zero-preview、QwQ）的领先优势不大。

具体来看，这些模型的考研数学成绩均达到120+。最强模型o1平均得分141.3分，在66道题中仅答错3.5题。国产模型GLM-zero-preview平均138.7分，QwQ平均137.0分，分差仅在个位数水平。第三梯队模型DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3的分数也在120分以上。

值得注意的是，GPT-4在本次测试中仅获70.7分，排名倒数第一，表明在过去一年里，语言模型在数学推理领域取得了显著进步。

此外，评测团队对比了各模型厂商在深度思考能力优化方面的进展，结果显示OpenAI o1相较于基础模型GPT-4o的提升幅度最大，达57.3分。智谱和阿里的模型紧随其后，分别提升了47.0分和46.7分，接近OpenAI的21.0分。

评测团队还采用了统一的网页端进行测试，以确保公正性和准确性。

原文链接

本文链接：https://kx.umi6.com/article/11661.html

转载请注明文章出处