标题:字节跳动发布SuperGPQA,刷新大模型知识推理评测标准
近日,字节跳动豆包大模型团队与M-A-P开源社区合作,推出全新评测基准SuperGPQA。这项评测耗时半年,由近百名学者、硕博生及工程师共同参与,构建了覆盖285个研究生级学科、包含26529道题目的评估体系。
SuperGPQA针对传统评测存在的学科覆盖不全、题目质量存疑及评测维度单一等问题,进行了全面改进。实验显示,最强模型DeepSeek-R1在SuperGPQA上的准确率为61.82%,显著低于其在传统评估指标上的表现。SuperGPQA还展示了不同模型在推理能力和学科表现上的差异,揭示了国内模型如豆包大模型(Doubao-1.5-pro)和Qwen系列的进步。
SuperGPQA通过严格的三步质检流程,确保题目来源可靠、难度适中。该评测已在HuggingFace和GitHub开源,并迅速登上Trending榜单。未来,SuperGPQA有望成为大模型评测的重要工具,推动模型能力的进一步提升。
原文链接
本文链接:https://kx.umi6.com/article/14896.html
转载请注明文章出处
相关推荐
换一换
中国中文信息学会2025学术年会暨第二届中国大模型大会(CIPS & CLM 2025)于10月28日在北京盛大开幕
2025-10-30 18:52:50
从 CIPS & CLM 迈进:中国大模型的智能跃迁
2025-10-30 17:51:34
一场「狼人杀」,考倒了一堆大模型
2025-08-28 14:28:50
卓世科技,股改完成!
2026-01-05 15:08:15
大模型又迎来重要玩家!美团首个开源大模型来了
2025-09-01 18:28:28
1300000000000000!谷歌每月Tokens消耗量曝光(别数了是千万亿)
2025-10-11 09:26:13
Kimi即将推出新一代万亿大模型:开源王者刷新 去年已超GPT5
2026-01-20 22:33:50
OpenAI的命门,决定了大模型公司的未来
2025-09-03 14:48:12
李彦宏:百度下一代旗舰大模型研发中 会在准备就绪后尽快发布
2025-08-20 21:19:28
中国AI云,开始「抢座次」了
2025-11-20 11:17:00
上海:推动医疗器械相关垂类大模型研发应用
2025-09-15 16:02:14
Karpathy 最新发文:别把 AI 当人看,它没欲望也不怕死
2025-11-22 19:29:36
百度新设两个大模型研发部:直接向CEO李彦宏汇报!
2025-11-25 22:10:22
666 文章
433782 浏览
24小时热文
更多
-
2026-01-23 10:51:27 -
2026-01-23 10:50:21 -
2026-01-23 10:49:16