上海人工智能实验室的OpenCompass近日对7大AI模型进行了首次高考全卷测试,结果显示,阿里通义千问2-72B获得最高分303分位居榜首,OpenAI的GPT-4紧随其后,得分为296分。书生·浦语2.0位列第三,所有模型的平均得分率超过70%。然而,这些大模型在数学部分表现欠佳,最高分仅为75分,显示了当前AI在解答复杂数学问题上的局限。这项评测具有时效性,反映了AI技术在教育领域的最新进展。
原文链接
本文链接:https://kx.umi6.com/article/1656.html
转载请注明文章出处
相关推荐
.png)
换一换
讯飞星火 X1 升级版模型宣布上线:整体效果对标 OpenAI o3 等国内外一流大模型
2025-07-25 14:25:03
一场「狼人杀」,考倒了一堆大模型
2025-08-28 14:28:50
OpenAI:智谱在海外市场取得了显著进展,是大模型领域的新锐代表
2025-06-30 19:46:02
亚马逊云科技大中华区总裁储瑞松:Agentic AI处于爆发前夜
2025-06-19 10:49:07
中国信通院开展面向大模型的全栈国产软硬件系统适配测试工作
2025-07-23 16:55:22
如何避免成为AI墓地的一员?
2025-07-23 13:50:51
企业管理软件是不是和AI无关?
2025-06-23 13:23:28
智谱旗舰模型GLM-4.5重磅发布 相关企业有望站上风口
2025-07-29 08:27:00
独家|阶跃星辰正进行新一轮融资 金额超5亿美元
2025-07-25 22:31:59
2025WAIC:大厂回归,医疗AI爆火出圈
2025-07-30 15:47:42
2025大模型半年回顾:模型速度变缓
2025-06-25 19:34:48
我国首个发电行业大模型“擎源”发布,模型参数达千亿级别
2025-06-28 20:23:24
中信建投武超则:大模型的迭代永无止境 坚定看好接下来AI应用的发展表现
2025-07-16 18:10:08
464 文章
175869 浏览
24小时热文
更多

-
2025-09-08 22:04:30
-
2025-09-08 21:06:20
-
2025-09-08 21:05:04