1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
AI刷题强到可怕?挑战高考数学卷,DeepSeek-R1、腾讯混元T1、Grok3等十大模型测评来了
2025年高考已结束,但数学科目难度引发持续讨论。《每日经济新闻》测评了DeepSeek-R1、腾讯混元T1、Grok3等十款AI大模型,使用2025年全国新课标数学I卷。国产模型DeepSeek-R1与腾讯混元T1以零错误并列第一,得分117分;讯飞星火X1以112分紧随其后。Grok3表现不佳,仅获91分,排名倒数第三,因无法正确理解多选题。智谱清言推理模式得78分,位列倒数第二。Kimi k1.5垫底,压轴题失误严重。测评显示,AI在固定逻辑题上能力强,但在创新思维题上仍有局限。
月光编码师
06-11 00:56:16
AI推理大模型
测评
高考数学
分享至
打开微信扫一扫
内容投诉
生成图片
六大主流Agent横向测评,能打的只有两个半
标题:六大主流Agent横向测评,能打的只有两个半 Karpathy 曾说:“未来十年是 Agent 的十年。”这句话听起来像是 VC 的宣传口号,但深思后却发现其言之有理。Token 越来越便宜,MCP 越来越丰富,用户也逐渐接受 AI 的长耗时过程。近半年,Manus、扣子空间、Lovart...
电子诗篇
06-02 18:38:10
Agent测评
专才与通才
信任与频率
分享至
打开微信扫一扫
内容投诉
生成图片
最新一期权威大模型榜单:豆包1.5、商汤日日新V6并列国内第一
5月28日,权威机构SuperCLUE发布的《中文大模型基准测评2025年5月报告》显示,豆包1.5(Doubao-1.5-thinking-pro)和商汤日日新V6(SenseNova-V6 Reasoner)在国内大模型测评中并列第一,超越Gemini 2.5 Flash Preview。该测评涵盖六大任务,总计1579道多轮简答题。报告指出,国产大模型在中文领域通用能力的竞争格局逐渐明朗,Doubao-1.5-thinking-pro与SenseNova V6 Reasoner表现突出。位居第二梯队的包括DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1及DeepSeek-V3。SuperCLUE作为行业权威测评基准,其报告反映了国内外大模型技术差距的逐步缩小。
WisdomTrail
05-30 16:55:41
大模型
排行榜
测评
分享至
打开微信扫一扫
内容投诉
生成图片
红杉中国发布测评大模型工具xbench
今日(26日),红杉中国推出了AI基准测试工具xbench,并同步发布了相关论文。此举旨在评估和推动AI系统能力的上限和技术边界,同时着重量化AI系统在实际应用场景中的效用价值。此消息由《科创板日报》记者陈美报道。
LunarCoder
05-26 15:42:08
xbench
测评大模型
红杉中国
分享至
打开微信扫一扫
内容投诉
生成图片
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗? 从2024年末问世的Google Deep Research,到2024年2月以来密集发布的OpenAI Deep Research、Perplexity、xAI Deep Search、Manus,Deep Researc...
星际Code流浪者
04-22 12:18:27
Agent产品
Deep Research
测评
分享至
打开微信扫一扫
内容投诉
生成图片
中国信通院:正式启动DeepSeek国产化适配测评工作
中国信息通信研究院启动DeepSeek国产化适配测评工作,旨在为DeepSeek系列模型在多硬件多场景下的适配部署提供参考。该测评将依托AISHPerf人工智能软硬件基准体系及测试工具,面向芯片、服务器、集群等产品开展。测评内容涵盖适配成本、功能完备性、优化效果、性能指标等多方面。测评报名即日开始,2025年2-3月开展,3-4月进行宣传推广。此举推动AI软硬件协同效能提升,强化国产软硬件对大模型的支持能力。
GhostPilot
02-14 12:39:59
DeepSeek
人工智能
国产化适配测评
分享至
打开微信扫一扫
内容投诉
生成图片
我国首批高端仪器装备计量测评装置研制成功
【新闻摘要】 11月1日,市场监管总局宣布,我国首批高端仪器装备计量测评装置研制成功,填补了国内空白。该装置具备完全自主知识产权,技术水平达到国际先进标准,相当于高精密“标尺”,可精准量化验证原子力显微镜、原子钟等高端仪器的关键指标。这将有力推动航空航天、人工智能、生物医药等领域的核心装备实现国产化,加速科技自立自强的步伐。此次成果是我国在高端仪器装备领域的重要突破,标志着我国计量科学进入新阶段。(207字) 【发布于】2023年11月1日
小阳哥
11-01 08:13:43
国产化
计量测评装置
高端仪器装备
分享至
打开微信扫一扫
内容投诉
生成图片
今日直播:从草稿到样品图,只需要一步AI|AI产品测评
今日直播预告:AI助力设计,轻松实现样品图 在设计过程中,创意虽重要,但还需繁琐步骤:从草图到成品,需经过勾线、上色和环境布置。想象一下,能否在家动动手指,让AI完成这些繁重任务?量子位邀来建筑设计与AI产品经理苗哺雨,将现场测试神采PromeAI的AIGC功能,包括草图渲染、背景生成和AI超模,探...
量子思考者
07-18 17:16:36
AIGC设计
AI产品测评
神采PromeAI
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序