DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集

2025-03-07 09:31:19

AI奇点纪元

发布在

科普

阅读：431

标题：字节跳动发布SuperGPQA，刷新大模型知识推理评测标准

近日，字节跳动豆包大模型团队与M-A-P开源社区合作，推出全新评测基准SuperGPQA。这项评测耗时半年，由近百名学者、硕博生及工程师共同参与，构建了覆盖285个研究生级学科、包含26529道题目的评估体系。

SuperGPQA针对传统评测存在的学科覆盖不全、题目质量存疑及评测维度单一等问题，进行了全面改进。实验显示，最强模型DeepSeek-R1在SuperGPQA上的准确率为61.82%，显著低于其在传统评估指标上的表现。SuperGPQA还展示了不同模型在推理能力和学科表现上的差异，揭示了国内模型如豆包大模型（Doubao-1.5-pro）和Qwen系列的进步。

SuperGPQA通过严格的三步质检流程，确保题目来源可靠、难度适中。该评测已在HuggingFace和GitHub开源，并迅速登上Trending榜单。未来，SuperGPQA有望成为大模型评测的重要工具，推动模型能力的进一步提升。

原文链接

本文链接：https://kx.umi6.com/article/14896.html

转载请注明文章出处

SuperGPQA