上海人工智能实验室的OpenCompass近日对7大AI模型进行了首次高考全卷测试,结果显示,阿里通义千问2-72B获得最高分303分位居榜首,OpenAI的GPT-4紧随其后,得分为296分。书生·浦语2.0位列第三,所有模型的平均得分率超过70%。然而,这些大模型在数学部分表现欠佳,最高分仅为75分,显示了当前AI在解答复杂数学问题上的局限。这项评测具有时效性,反映了AI技术在教育领域的最新进展。
原文链接
本文链接:https://kx.umi6.com/article/1656.html
转载请注明文章出处
相关推荐
换一换
腾讯AI下了一场「及时雨」
2025-12-19 10:42:16
华人AI大神霸气离职,一篇博客挑明中美大模型暗战
2025-10-11 10:14:30
英伟达新研究:小模型才是智能体的未来
2025-08-19 08:54:39
刚刚,智谱港交所敲钟!市值528亿港元
2026-01-08 11:04:01
两部门:到2027年推动五个以上专业大模型在电网、发电、煤炭、油气等行业深度应用
2025-09-08 10:56:26
智谱AI今日正式上市,一文讲透你想知道的6件事
2026-01-09 21:35:10
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
DeepSeek V3.2、GLM4.6等大模型即将发布
2025-09-29 17:14:30
豆包们,开始「上链接」
2025-10-27 10:54:08
阿里字节腾讯,集体重仓新风口
2025-10-17 14:18:54
Manus救不了Meta
2026-01-08 20:35:12
三家混战,大模型重回2023
2025-08-03 11:35:50
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式
2025-12-16 10:32:22
609 文章
409506 浏览
24小时热文
更多
-
2026-01-23 17:11:08 -
2026-01-23 17:10:00 -
2026-01-23 17:08:55