标题:字节跳动发布SuperGPQA,刷新大模型知识推理评测标准
近日,字节跳动豆包大模型团队与M-A-P开源社区合作,推出全新评测基准SuperGPQA。这项评测耗时半年,由近百名学者、硕博生及工程师共同参与,构建了覆盖285个研究生级学科、包含26529道题目的评估体系。
SuperGPQA针对传统评测存在的学科覆盖不全、题目质量存疑及评测维度单一等问题,进行了全面改进。实验显示,最强模型DeepSeek-R1在SuperGPQA上的准确率为61.82%,显著低于其在传统评估指标上的表现。SuperGPQA还展示了不同模型在推理能力和学科表现上的差异,揭示了国内模型如豆包大模型(Doubao-1.5-pro)和Qwen系列的进步。
SuperGPQA通过严格的三步质检流程,确保题目来源可靠、难度适中。该评测已在HuggingFace和GitHub开源,并迅速登上Trending榜单。未来,SuperGPQA有望成为大模型评测的重要工具,推动模型能力的进一步提升。
原文链接
本文链接:https://kx.umi6.com/article/14896.html
转载请注明文章出处
相关推荐
换一换
大模型又迎来重要玩家!美团首个开源大模型来了
2025-09-01 18:28:28
国产模型+国产芯片“蜜月期”开启!DeepSeek、智谱密集上新 华为、寒武纪芯片火速适配
2025-09-30 21:35:35
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025-12-04 12:18:33
在上海WAIC,800展商无一不想成为黄仁勋
2025-07-27 07:50:27
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
阿里字节腾讯,集体重仓新风口
2025-10-17 14:18:54
中国信通院开展面向大模型的全栈国产软硬件系统适配测试工作
2025-07-23 16:55:22
港股AGI第一股“云知声”首战告捷:大模型贡献1亿收入,单客价直线提升116.2%,AI保险业务暴涨1386.8%
2025-08-29 20:43:34
中信建投:持续推荐AI算力板块
2025-10-28 08:39:40
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
AI玩具有多火?连马斯克都入场了
2025-07-29 21:36:44
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
2025-08-21 13:31:42
独家|阶跃星辰正进行新一轮融资 金额超5亿美元
2025-07-25 22:31:59
615 文章
354905 浏览
24小时热文
更多
-
2025-12-08 22:52:38 -
2025-12-08 22:51:57 -
2025-12-08 22:51:33