1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025年,大模型竞争进入新阶段,但基准测试公信力下降,实际使用常令人失望。业内揭露了基准测试作弊、测试集泄露和排行榜操纵等问题。Scale AI 2024年11月论文显示,许多开源模型在新测试基准下的表现大幅下滑。Cohere 2025年4月指出知名评测平台偏向大公司,Meta等私下多次测试模型。此外,数据集污染和刷榜现象普遍,导致基准测试不再反映真实性能,成为厂商营销工具。专家认为现有基准测试体系存在结构性缺陷,过于静态和单一化。新的动态测试集逐渐兴起,企业更多依赖私有基准测试集,关注模型稳定性、迭代速度和开源程度。赵海教授指出,未来AGI系统将无需依赖人工标注,而主流大模型的核心问题仍是幻觉和指令遵循能力。
元界筑梦师
12-04 12:18:33
ai
基准测试
大模型
分享至
打开微信扫一扫
内容投诉
生成图片
牛津大学研究:当前基准测试普遍夸大了 AI 模型的性能
牛津大学互联网研究所联合30多位研究人员发布研究称,当前用于评估AI模型性能的基准测试普遍存在夸大问题,缺乏科学严谨性。研究分析了445项主流基准测试,发现约一半未能明确定义测量目标,且常重复使用数据和方法,统计比较也不够可靠。高级研究员亚当・马赫迪指出,这些测试可能误导公众对AI能力的认知,例如通过GSM8K测试评估数学推理能力时,答对问题未必代表真正具备推理能力。研究呼吁改进基准测试,提出八项建议,包括明确评估范围、构建代表性任务组合及加强统计分析,以提升测试透明度与可信度。该研究于11月6日发布,引发广泛关注。
WisdomTrail
11-06 19:10:49
AI基准测试
构念效度
牛津大学
分享至
打开微信扫一扫
内容投诉
生成图片
“为了全人类,提交你最难的问题”
“为了全人类,提交你最难的问题” AI的聪明程度已经快超出人类评估能力。早期,人们用各种题库测试AI,但如今大部分模型在MMLU等基准测试上的准确率已超90%,甚至满分横扫。图灵测试早已无人提及,现有考试无法再有效衡量AI的进步。 为应对这一问题,“人类最后的考试”(Humanity's Last ...
月光编码师
09-26 07:19:37
AI基准测试
HLE
人类最后的考试
分享至
打开微信扫一扫
内容投诉
生成图片
不满现有工具,三星推出自研 AI 性能基准测试工具 TRUEBench
9月25日,三星发布自研AI性能基准测试工具TRUEBench(可信真实场景使用评估基准)。该工具由三星研究院开发,旨在解决现有AI基准测试工具的不足,如仅关注英语和单轮问答结构等问题。TRUEBench涵盖多样化对话场景与多语言环境,基于企业内部AI应用经验,围绕10项常用任务评估AI性能,包括内容生成、数据分析、翻译等。其测试集包含2485组数据,覆盖10大类、46子类及12种语言,任务长度从8字符到20000字符不等。评分体系由AI与人类协作设计,并已在开源平台Hugging Face上线。三星DX部门CTO兼三星研究院院长表示,TRUEBench将确立生产力领域评估标准,巩固三星技术领先地位。
LunarCoder
09-25 19:11:07
AI基准测试工具
TRUEBench
三星
分享至
打开微信扫一扫
内容投诉
生成图片
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
标题:LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考 随着推理大模型和思维链的普及,AI在复杂任务中的表现大幅提升,但也逐渐暴露出一个问题:它常常把简单任务复杂化。AI领域专家Andrej Karpathy对此现象表示无奈,指出当前大模型在默认状态下过于“自主代理化”,...
数码游侠
08-12 11:21:24
基准测试
深度思考
过度思考
分享至
打开微信扫一扫
内容投诉
生成图片
多项力压 Grok 4、OpenAI o3,谷歌推出 Gemini 2.5 Deep Think 模型
8月1日,谷歌正式发布Gemini 2.5 Deep Think模型,现已向Google AI Ultra订阅用户开放。该模型在多个基准测试中超越OpenAI的o3和xAI的Grok 4,性能显著提升。Deep Think模式可在作答前综合多个假设进行推理,并集成代码执行与谷歌搜索等功能。谷歌透露,该模型是此前在国际数学奥林匹克竞赛中获金牌模型的优化变体,虽经加速优化,但在2025年IMO基准测试中仅达铜牌水平。目前,用户可在Gemini应用中限定次数使用Deep Think功能,未来几周还将通过Gemini API向开发者提供不同版本。
数字墨迹
08-01 23:08:15
Gemini 2.5 Deep Think
基准测试
谷歌
分享至
打开微信扫一扫
内容投诉
生成图片
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
标题:对话中国信通院魏凯:AI下半场,大模型要少说话,多做事 今年2月,DeepSeek爆火,而中国信通院早在之前就观察到国内大模型性能快速提升。魏凯表示,2024年多个团队持续优化模型,每月都有新进展。例如,DeepSeek在4月排名靠后,8月进入前十,12月发布的DeepSeek-V3成为基...
元界筑梦师
07-01 08:51:07
Agent
AI基准测试
大模型
分享至
打开微信扫一扫
内容投诉
生成图片
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
标题:基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 你是否曾对大语言模型(LLMs)下达过明确的“长度指令”?比如,“写一篇10,000字的长文”。看似简单的要求,实际却让模型“力不从心”:要么生成不足,要么重复啰嗦,甚至直接罢工。 最新研究论文《LIFEB...
电子诗篇
05-29 15:34:10
基准测试
大语言模型
长度指令
分享至
打开微信扫一扫
内容投诉
生成图片
红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”
标题:红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题” 随着基础模型快速发展及AI Agent规模化应用,传统基准测试难以真实反映AI系统能力。为解决这一问题,红杉中国推出xbench,首个由投资机构联合十余家顶尖高校和研究机构打造的AI基准测试。它采用双轨评估体系和长青评估机制,不仅衡量理论上限,还关注实际效用。 xbench包含两部分:一是评估AI系统的技术边界,二是量化其在真实场景的价值。通过动态更新测试内容,保持时效性。首期发布了科学问题解答和中文互联网搜索两大测评集,并提出招聘和营销领域的垂类评测框架。 xbench源于红杉中国的内部实践,现向全社区开放,鼓励开发者、企业和研究者参与共建,共同推动AI能力评估新标准的形成。
Journeyman
05-26 17:32:29
AI基准测试
xbench
评估体系
分享至
打开微信扫一扫
内容投诉
生成图片
红杉中国,刚刚发了一篇Paper
红杉中国近日推出全新AI基准测试工具xbench,并发布相关论文,成为首家由投资机构主导发布此类工具的机构。xbench针对快速发展的AI模型和Agent面临的基准测试有效性缩短问题,提出双轨评估体系,包括评估能力上限和技术边界,以及量化实际场景效用价值。其采用长青评估机制,动态更新测试内容以保持时效性,追踪主流AI产品能力演进,预测技术-市场契合点。此举不仅创新性地解决当前AI基准测试痛点,还可能改变投资机构的传统评估方式,推动AGI时代的标准化建设与商业化探索。
元界筑梦师
05-26 12:35:56
AI基准测试
技术-市场契合
红杉中国
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序