1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:字节跳动发布SuperGPQA,刷新大模型知识推理评测标准

近日,字节跳动豆包大模型团队与M-A-P开源社区合作,推出全新评测基准SuperGPQA。这项评测耗时半年,由近百名学者、硕博生及工程师共同参与,构建了覆盖285个研究生级学科、包含26529道题目的评估体系。

SuperGPQA针对传统评测存在的学科覆盖不全、题目质量存疑及评测维度单一等问题,进行了全面改进。实验显示,最强模型DeepSeek-R1在SuperGPQA上的准确率为61.82%,显著低于其在传统评估指标上的表现。SuperGPQA还展示了不同模型在推理能力和学科表现上的差异,揭示了国内模型如豆包大模型(Doubao-1.5-pro)和Qwen系列的进步。

SuperGPQA通过严格的三步质检流程,确保题目来源可靠、难度适中。该评测已在HuggingFace和GitHub开源,并迅速登上Trending榜单。未来,SuperGPQA有望成为大模型评测的重要工具,推动模型能力的进一步提升。

原文链接
本文链接:https://kx.umi6.com/article/14896.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
人工智能的新浪潮和商业化
2025-06-09 19:31:59
对话清华大学张亚勤:智能体是大模型时代的APP
2025-06-23 08:29:04
大模型再战高考:从一本直升985
2025-06-30 23:48:58
24小时热文
更多
扫一扫体验小程序