标题:字节跳动发布SuperGPQA,刷新大模型知识推理评测标准
近日,字节跳动豆包大模型团队与M-A-P开源社区合作,推出全新评测基准SuperGPQA。这项评测耗时半年,由近百名学者、硕博生及工程师共同参与,构建了覆盖285个研究生级学科、包含26529道题目的评估体系。
SuperGPQA针对传统评测存在的学科覆盖不全、题目质量存疑及评测维度单一等问题,进行了全面改进。实验显示,最强模型DeepSeek-R1在SuperGPQA上的准确率为61.82%,显著低于其在传统评估指标上的表现。SuperGPQA还展示了不同模型在推理能力和学科表现上的差异,揭示了国内模型如豆包大模型(Doubao-1.5-pro)和Qwen系列的进步。
SuperGPQA通过严格的三步质检流程,确保题目来源可靠、难度适中。该评测已在HuggingFace和GitHub开源,并迅速登上Trending榜单。未来,SuperGPQA有望成为大模型评测的重要工具,推动模型能力的进一步提升。
原文链接
本文链接:https://kx.umi6.com/article/14896.html
转载请注明文章出处
相关推荐
换一换
大模型即OS,AI云即计算机:阿里的全栈赌注
2025-09-25 10:00:29
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
用DeepSeek改造ERP,到底难在哪?怎么破?
2025-10-11 09:33:30
腾讯调整大模型组织架构:姚顺雨加盟,向总裁刘炽平汇报
2025-12-18 15:51:59
我国大模型密集落地 新技术加速普惠应用
2026-02-14 12:17:30
大模型又迎来重要玩家!美团首个开源大模型来了
2025-09-01 18:28:28
中金:2026年大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破
2026-02-05 08:39:59
腾讯混元大模型品牌 Hunyuan 更名为 HY
2025-12-10 15:53:58
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026
2025-12-22 10:34:39
卓世科技,股改完成!
2026-01-05 15:08:15
阿里字节腾讯,集体重仓新风口
2025-10-17 14:18:54
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
2025-11-18 14:20:39
DeepSeek V3.2、GLM4.6等大模型即将发布
2025-09-29 17:14:30
693 文章
483821 浏览
24小时热文
更多
-
2026-03-10 13:19:24 -
2026-03-10 13:18:55 -
2026-03-10 12:13:43