综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
华为盘古718B模型最新成绩:开源第二
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
在最新一期的SuperCLUE中文大模型通用基准测评中,华为的openPangu-Ultra-MoE-718B(盘古718B)以出色表现位列开源模型第二名。本次测评从数学推理、科学推理、代码生成等六...
原文链接
9月25日,浙江省卫生健康委消息,第四届全球数字贸易博览会数字医疗健康产业对接会上,‘医学人工智能测评验证联合实验室’正式揭牌成立。这一实验室的成立标志着医学人工智能领域迈入新阶段,将推动数字医疗技术的发展与应用,为行业提供更专业的测评验证支持。
原文链接
2025年9月,Scale AI发布新基准SWE-BENCH PRO,显示GPT-5、Claude Opus 4.1和Gemini 2.5等顶级模型编程任务解决率均未超25%。然而,深入分析发现,GPT-5在已提交任务中准确率达63%,远高于Claude的31%。新测试集严格规避数据污染问题,包含多元化代码库与复杂任务,强调真实工业场景挑战。尽管如此,即使是表现最佳的GPT-5,在商业场景中的解决率也低于20%。研究人员指出,编程语言难度、代码库特性及模型种类显著影响结果,而各模型失败原因各异,如语义理解不足或上下文管理局限。未来谁能突破30%解决率仍是未知数。
原文链接
2025年9月,Scale AI发布新基准SWE-BENCH PRO,测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%,但深入分析发现,GPT-5在已提交任务中准确率达63%,远超Claude的31%。新基准严格避免数据污染,涵盖1865个商业代码库问题,强调复杂多文件修改,对比旧版难度显著提升。研究指出,Go和Python任务表现较好,而JavaScript波动大;失败原因因模型而异,如Claude语义理解不足,GPT-5工具使用需优化。整体来看,当前AI模型在真实商业场景中的编程能力仍有限,突破30%解决率成新目标。
原文链接
2025年高考已结束,但数学科目难度引发持续讨论。《每日经济新闻》测评了DeepSeek-R1、腾讯混元T1、Grok3等十款AI大模型,使用2025年全国新课标数学I卷。国产模型DeepSeek-R1与腾讯混元T1以零错误并列第一,得分117分;讯飞星火X1以112分紧随其后。Grok3表现不佳,仅获91分,排名倒数第三,因无法正确理解多选题。智谱清言推理模式得78分,位列倒数第二。Kimi k1.5垫底,压轴题失误严重。测评显示,AI在固定逻辑题上能力强,但在创新思维题上仍有局限。
原文链接
标题:六大主流Agent横向测评,能打的只有两个半
Karpathy 曾说:“未来十年是 Agent 的十年。”这句话听起来像是 VC 的宣传口号,但深思后却发现其言之有理。Token 越来越便宜,MCP 越来越丰富,用户也逐渐接受 AI 的长耗时过程。近半年,Manus、扣子空间、Lovart...
原文链接
5月28日,权威机构SuperCLUE发布的《中文大模型基准测评2025年5月报告》显示,豆包1.5(Doubao-1.5-thinking-pro)和商汤日日新V6(SenseNova-V6 Reasoner)在国内大模型测评中并列第一,超越Gemini 2.5 Flash Preview。该测评涵盖六大任务,总计1579道多轮简答题。报告指出,国产大模型在中文领域通用能力的竞争格局逐渐明朗,Doubao-1.5-thinking-pro与SenseNova V6 Reasoner表现突出。位居第二梯队的包括DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1及DeepSeek-V3。SuperCLUE作为行业权威测评基准,其报告反映了国内外大模型技术差距的逐步缩小。
原文链接
今日(26日),红杉中国推出了AI基准测试工具xbench,并同步发布了相关论文。此举旨在评估和推动AI系统能力的上限和技术边界,同时着重量化AI系统在实际应用场景中的效用价值。此消息由《科创板日报》记者陈美报道。
原文链接
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?
从2024年末问世的Google Deep Research,到2024年2月以来密集发布的OpenAI Deep Research、Perplexity、xAI Deep Search、Manus,Deep Researc...
原文链接
中国信息通信研究院启动DeepSeek国产化适配测评工作,旨在为DeepSeek系列模型在多硬件多场景下的适配部署提供参考。该测评将依托AISHPerf人工智能软硬件基准体系及测试工具,面向芯片、服务器、集群等产品开展。测评内容涵盖适配成本、功能完备性、优化效果、性能指标等多方面。测评报名即日开始,2025年2-3月开展,3-4月进行宣传推广。此举推动AI软硬件协同效能提升,强化国产软硬件对大模型的支持能力。
原文链接
加载更多
暂无内容