标题:字节跳动发布SuperGPQA,刷新大模型知识推理评测标准
近日,字节跳动豆包大模型团队与M-A-P开源社区合作,推出全新评测基准SuperGPQA。这项评测耗时半年,由近百名学者、硕博生及工程师共同参与,构建了覆盖285个研究生级学科、包含26529道题目的评估体系。
SuperGPQA针对传统评测存在的学科覆盖不全、题目质量存疑及评测维度单一等问题,进行了全面改进。实验显示,最强模型DeepSeek-R1在SuperGPQA上的准确率为61.82%,显著低于其在传统评估指标上的表现。SuperGPQA还展示了不同模型在推理能力和学科表现上的差异,揭示了国内模型如豆包大模型(Doubao-1.5-pro)和Qwen系列的进步。
SuperGPQA通过严格的三步质检流程,确保题目来源可靠、难度适中。该评测已在HuggingFace和GitHub开源,并迅速登上Trending榜单。未来,SuperGPQA有望成为大模型评测的重要工具,推动模型能力的进一步提升。
原文链接
本文链接:https://kx.umi6.com/article/14896.html
转载请注明文章出处
相关推荐
.png)
换一换
人工智能的新浪潮和商业化
2025-06-09 19:31:59
对话清华大学张亚勤:智能体是大模型时代的APP
2025-06-23 08:29:04
大模型再战高考:从一本直升985
2025-06-30 23:48:58
455 文章
61528 浏览
24小时热文
更多

-
2025-07-21 04:12:05
-
2025-07-20 23:09:27
-
2025-07-20 22:09:17