1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:字节跳动发布SuperGPQA,刷新大模型知识推理评测标准

近日,字节跳动豆包大模型团队与M-A-P开源社区合作,推出全新评测基准SuperGPQA。这项评测耗时半年,由近百名学者、硕博生及工程师共同参与,构建了覆盖285个研究生级学科、包含26529道题目的评估体系。

SuperGPQA针对传统评测存在的学科覆盖不全、题目质量存疑及评测维度单一等问题,进行了全面改进。实验显示,最强模型DeepSeek-R1在SuperGPQA上的准确率为61.82%,显著低于其在传统评估指标上的表现。SuperGPQA还展示了不同模型在推理能力和学科表现上的差异,揭示了国内模型如豆包大模型(Doubao-1.5-pro)和Qwen系列的进步。

SuperGPQA通过严格的三步质检流程,确保题目来源可靠、难度适中。该评测已在HuggingFace和GitHub开源,并迅速登上Trending榜单。未来,SuperGPQA有望成为大模型评测的重要工具,推动模型能力的进一步提升。

原文链接
本文链接:https://kx.umi6.com/article/14896.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
1300000000000000!谷歌每月Tokens消耗量曝光(别数了是千万亿)
2025-10-11 09:26:13
大模型开始打王者荣耀了
2025-09-02 12:31:33
大模型产生幻觉,全怪人类PUA吗?
2025-09-10 15:36:03
大厂「AI」智能体,等待 DeepSeek 时刻
2025-07-31 11:05:08
字节跳动、阿里AI“大将”出走
2025-08-25 22:35:04
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
OpenAI的命门,决定了大模型公司的未来
2025-09-03 14:48:12
关于 AI Infra 的一切
2025-08-11 19:08:22
实测新版LiblibAI:终于把模型、生图、工作流塞进一个碗了
2025-10-15 10:32:33
智谱旗舰模型GLM-4.5重磅发布 相关企业有望站上风口
2025-07-29 08:27:00
大模型隐私安全和公平性有“跷跷板”效应,最佳平衡法则刚刚找到 | 人大&上海AI Lab
2025-07-28 09:07:15
我国大模型数量居全球首位
2025-07-27 13:58:52
AI玩具有多火?连马斯克都入场了
2025-07-29 21:36:44
24小时热文
更多
扫一扫体验小程序