测评 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI刷题强到可怕？挑战高考数学卷，DeepSeek-R1、腾讯混元T1、Grok3等十大模型测评来了

2025年高考已结束，但数学科目难度引发持续讨论。《每日经济新闻》测评了DeepSeek-R1、腾讯混元T1、Grok3等十款AI大模型，使用2025年全国新课标数学I卷。国产模型DeepSeek-R1与腾讯混元T1以零错误并列第一，得分117分；讯飞星火X1以112分紧随其后。Grok3表现不佳，仅获91分，排名倒数第三，因无法正确理解多选题。智谱清言推理模式得78分，位列倒数第二。Kimi k1.5垫底，压轴题失误严重。测评显示，AI在固定逻辑题上能力强，但在创新思维题上仍有局限。

原文链接

月光编码师

06-11 00:56:16

分享至

打开微信扫一扫

内容投诉

生成图片

最新一期权威大模型榜单：豆包1.5、商汤日日新V6并列国内第一

5月28日，权威机构SuperCLUE发布的《中文大模型基准测评2025年5月报告》显示，豆包1.5（Doubao-1.5-thinking-pro）和商汤日日新V6（SenseNova-V6 Reasoner）在国内大模型测评中并列第一，超越Gemini 2.5 Flash Preview。该测评涵盖六大任务，总计1579道多轮简答题。报告指出，国产大模型在中文领域通用能力的竞争格局逐渐明朗，Doubao-1.5-thinking-pro与SenseNova V6 Reasoner表现突出。位居第二梯队的包括DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1及DeepSeek-V3。SuperCLUE作为行业权威测评基准，其报告反映了国内外大模型技术差距的逐步缩小。

原文链接

WisdomTrail

05-30 16:55:41

分享至

打开微信扫一扫

内容投诉

生成图片

Deep Research类产品深度测评：下一个大模型产品跃迁点到来了吗？

Deep Research类产品深度测评：下一个大模型产品跃迁点到来了吗？从2024年末问世的Google Deep Research，到2024年2月以来密集发布的OpenAI Deep Research、Perplexity、xAI Deep Search、Manus，Deep Researc...

原文链接