上海人工智能实验室的OpenCompass近日对7大AI模型进行了首次高考全卷测试,结果显示,阿里通义千问2-72B获得最高分303分位居榜首,OpenAI的GPT-4紧随其后,得分为296分。书生·浦语2.0位列第三,所有模型的平均得分率超过70%。然而,这些大模型在数学部分表现欠佳,最高分仅为75分,显示了当前AI在解答复杂数学问题上的局限。这项评测具有时效性,反映了AI技术在教育领域的最新进展。
原文链接
本文链接:https://kx.umi6.com/article/1656.html
转载请注明文章出处
相关推荐
换一换
「今年业务是去年5倍以上」,工业智能体掀热潮
2025-08-29 12:38:30
当AI智能体走进诊室,大模型如何颠覆医疗?
2025-07-30 13:48:25
智谱旗舰模型GLM-4.5重磅发布 相关企业有望站上风口
2025-07-29 08:27:00
我国大模型数量超1500个
2025-07-27 23:04:18
大模型开始打王者荣耀了
2025-09-02 12:31:33
字节跳动、阿里AI“大将”出走 大模型厂商中高层流动持续
2025-08-25 21:35:41
大模型自信心崩塌!谷歌DeepMind证实:反对意见让GPT-4o轻易放弃正确答案
2025-07-20 16:05:44
腾讯发布全新大模型混元3D 3.0
2025-09-16 10:11:57
蚂蚁密算开源高阶程序HOP框架
2025-07-27 16:06:47
智谱与市城投集团合作发布杭州城投人工智能产业大模型项目(一期)建设成果
2025-09-15 20:01:43
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
2025-07-01 08:51:07
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
大模型又迎来重要玩家!美团首个开源大模型来了
2025-09-01 18:28:28
502 文章
254136 浏览
24小时热文
更多
-
2025-10-25 10:17:38 -
2025-10-25 08:14:19 -
2025-10-24 22:57:14