测评 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

华为盘古718B模型最新成绩：开源第二

华为盘古718B模型最新成绩：开源第二金磊发自凹非寺量子位 | 公众号 QbitAI 在最新一期的SuperCLUE中文大模型通用基准测评中，华为的openPangu-Ultra-MoE-718B（盘古718B）以出色表现位列开源模型第二名。本次测评从数学推理、科学推理、代码生成等六...

原文链接

智慧轨迹

09-29 13:08:42

SuperCLUE测评

华为盘古718B

开源模型

分享至

打开微信扫一扫

内容投诉

生成图片

医学人工智能测评验证联合实验室揭牌成立

9月25日，浙江省卫生健康委消息，第四届全球数字贸易博览会数字医疗健康产业对接会上，‘医学人工智能测评验证联合实验室’正式揭牌成立。这一实验室的成立标志着医学人工智能领域迈入新阶段，将推动数字医疗技术的发展与应用，为行业提供更专业的测评验证支持。

原文链接

星际Code流浪者

09-26 16:38:13

医学人工智能

测评验证

联合实验室

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-5编程测评大反转！表面不及格，实际63.1%的任务没交卷，全算上成绩比Claude高一倍

2025年9月，Scale AI发布新基准SWE-BENCH PRO，显示GPT-5、Claude Opus 4.1和Gemini 2.5等顶级模型编程任务解决率均未超25%。然而，深入分析发现，GPT-5在已提交任务中准确率达63%，远高于Claude的31%。新测试集严格规避数据污染问题，包含多元化代码库与复杂任务，强调真实工业场景挑战。尽管如此，即使是表现最佳的GPT-5，在商业场景中的解决率也低于20%。研究人员指出，编程语言难度、代码库特性及模型种类显著影响结果，而各模型失败原因各异，如语义理解不足或上下文管理局限。未来谁能突破30%解决率仍是未知数。

原文链接

AI奇点纪元

09-24 17:45:44

GPT-5

SWE-BENCH PRO

编程测评

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-5 编程测评“表面不及格”：实际 63.1% 的任务没交卷，全算上成绩比 Claude 高一倍

2025年9月，Scale AI发布新基准SWE-BENCH PRO，测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%，但深入分析发现，GPT-5在已提交任务中准确率达63%，远超Claude的31%。新基准严格避免数据污染，涵盖1865个商业代码库问题，强调复杂多文件修改，对比旧版难度显著提升。研究指出，Go和Python任务表现较好，而JavaScript波动大；失败原因因模型而异，如Claude语义理解不足，GPT-5工具使用需优化。整体来看，当前AI模型在真实商业场景中的编程能力仍有限，突破30%解决率成新目标。

原文链接

未来编码者

09-23 00:06:04

GPT-5

SWE-BENCH PRO

编程模型测评

分享至

打开微信扫一扫

内容投诉

生成图片

AI刷题强到可怕？挑战高考数学卷，DeepSeek-R1、腾讯混元T1、Grok3等十大模型测评来了

2025年高考已结束，但数学科目难度引发持续讨论。《每日经济新闻》测评了DeepSeek-R1、腾讯混元T1、Grok3等十款AI大模型，使用2025年全国新课标数学I卷。国产模型DeepSeek-R1与腾讯混元T1以零错误并列第一，得分117分；讯飞星火X1以112分紧随其后。Grok3表现不佳，仅获91分，排名倒数第三，因无法正确理解多选题。智谱清言推理模式得78分，位列倒数第二。Kimi k1.5垫底，压轴题失误严重。测评显示，AI在固定逻辑题上能力强，但在创新思维题上仍有局限。

原文链接

月光编码师

06-11 00:56:16

AI推理大模型

测评

高考数学

分享至

打开微信扫一扫

内容投诉

生成图片

六大主流Agent横向测评，能打的只有两个半

标题：六大主流Agent横向测评，能打的只有两个半 Karpathy 曾说：“未来十年是 Agent 的十年。”这句话听起来像是 VC 的宣传口号，但深思后却发现其言之有理。Token 越来越便宜，MCP 越来越丰富，用户也逐渐接受 AI 的长耗时过程。近半年，Manus、扣子空间、Lovart...

原文链接

电子诗篇

06-02 18:38:10

Agent测评

专才与通才

信任与频率

分享至

打开微信扫一扫

内容投诉

生成图片

最新一期权威大模型榜单：豆包1.5、商汤日日新V6并列国内第一

5月28日，权威机构SuperCLUE发布的《中文大模型基准测评2025年5月报告》显示，豆包1.5（Doubao-1.5-thinking-pro）和商汤日日新V6（SenseNova-V6 Reasoner）在国内大模型测评中并列第一，超越Gemini 2.5 Flash Preview。该测评涵盖六大任务，总计1579道多轮简答题。报告指出，国产大模型在中文领域通用能力的竞争格局逐渐明朗，Doubao-1.5-thinking-pro与SenseNova V6 Reasoner表现突出。位居第二梯队的包括DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1及DeepSeek-V3。SuperCLUE作为行业权威测评基准，其报告反映了国内外大模型技术差距的逐步缩小。

原文链接

WisdomTrail

05-30 16:55:41

大模型

排行榜

测评

分享至

打开微信扫一扫

内容投诉

生成图片

红杉中国发布测评大模型工具xbench

今日（26日），红杉中国推出了AI基准测试工具xbench，并同步发布了相关论文。此举旨在评估和推动AI系统能力的上限和技术边界，同时着重量化AI系统在实际应用场景中的效用价值。此消息由《科创板日报》记者陈美报道。

原文链接

LunarCoder

05-26 15:42:08

xbench

测评大模型

红杉中国

分享至

打开微信扫一扫

内容投诉

生成图片

Deep Research类产品深度测评：下一个大模型产品跃迁点到来了吗？

Deep Research类产品深度测评：下一个大模型产品跃迁点到来了吗？从2024年末问世的Google Deep Research，到2024年2月以来密集发布的OpenAI Deep Research、Perplexity、xAI Deep Search、Manus，Deep Researc...

原文链接

星际Code流浪者

04-22 12:18:27

Agent产品

Deep Research

测评

分享至

打开微信扫一扫

内容投诉

生成图片

中国信通院：正式启动DeepSeek国产化适配测评工作

中国信息通信研究院启动DeepSeek国产化适配测评工作，旨在为DeepSeek系列模型在多硬件多场景下的适配部署提供参考。该测评将依托AISHPerf人工智能软硬件基准体系及测试工具，面向芯片、服务器、集群等产品开展。测评内容涵盖适配成本、功能完备性、优化效果、性能指标等多方面。测评报名即日开始，2025年2-3月开展，3-4月进行宣传推广。此举推动AI软硬件协同效能提升，强化国产软硬件对大模型的支持能力。

原文链接