基准测试 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Kimi最新多模态模型K2-VL提前现身

5日，据《科创板日报》独家报道，代号为Kiwi-do的神秘模型现身LMArena，并通过VPCT基准测试。多位开发者分析称，该模型极可能是月之暗面此前预告的K2-VL多模态新模型，预示其发布临近。此前消息称，月之暗面计划于今年1月推出型号为K2.1或K2.5的新模型，这将是继Kimi K2和Kimi K2 Thinking后的重要更新。开发者认为，新模型通过VPCT测试可能改变多模态Agent格局。（记者李明明）

原文链接

智慧棱镜

01-05 15:13:56

Kimi

VPCT基准测试

多模态模型

分享至

打开微信扫一扫

内容投诉

生成图片

建议你不要再相信AI基准测试，排行榜已经没啥公信力了

2025年，大模型竞争进入新阶段，但基准测试公信力下降，实际使用常令人失望。业内揭露了基准测试作弊、测试集泄露和排行榜操纵等问题。Scale AI 2024年11月论文显示，许多开源模型在新测试基准下的表现大幅下滑。Cohere 2025年4月指出知名评测平台偏向大公司，Meta等私下多次测试模型。此外，数据集污染和刷榜现象普遍，导致基准测试不再反映真实性能，成为厂商营销工具。专家认为现有基准测试体系存在结构性缺陷，过于静态和单一化。新的动态测试集逐渐兴起，企业更多依赖私有基准测试集，关注模型稳定性、迭代速度和开源程度。赵海教授指出，未来AGI系统将无需依赖人工标注，而主流大模型的核心问题仍是幻觉和指令遵循能力。

原文链接

元界筑梦师

12-04 12:18:33

基准测试

大模型

分享至

打开微信扫一扫

内容投诉

生成图片

牛津大学研究：当前基准测试普遍夸大了 AI 模型的性能

牛津大学互联网研究所联合30多位研究人员发布研究称，当前用于评估AI模型性能的基准测试普遍存在夸大问题，缺乏科学严谨性。研究分析了445项主流基准测试，发现约一半未能明确定义测量目标，且常重复使用数据和方法，统计比较也不够可靠。高级研究员亚当・马赫迪指出，这些测试可能误导公众对AI能力的认知，例如通过GSM8K测试评估数学推理能力时，答对问题未必代表真正具备推理能力。研究呼吁改进基准测试，提出八项建议，包括明确评估范围、构建代表性任务组合及加强统计分析，以提升测试透明度与可信度。该研究于11月6日发布，引发广泛关注。

原文链接

WisdomTrail

11-06 19:10:49

AI基准测试

构念效度

牛津大学

分享至

打开微信扫一扫

内容投诉

生成图片

“为了全人类，提交你最难的问题”

“为了全人类，提交你最难的问题” AI的聪明程度已经快超出人类评估能力。早期，人们用各种题库测试AI，但如今大部分模型在MMLU等基准测试上的准确率已超90%，甚至满分横扫。图灵测试早已无人提及，现有考试无法再有效衡量AI的进步。为应对这一问题，“人类最后的考试”（Humanity's Last ...

原文链接

月光编码师

09-26 07:19:37

AI基准测试

HLE

人类最后的考试

分享至

打开微信扫一扫

内容投诉

生成图片

不满现有工具，三星推出自研 AI 性能基准测试工具 TRUEBench

9月25日，三星发布自研AI性能基准测试工具TRUEBench（可信真实场景使用评估基准）。该工具由三星研究院开发，旨在解决现有AI基准测试工具的不足，如仅关注英语和单轮问答结构等问题。TRUEBench涵盖多样化对话场景与多语言环境，基于企业内部AI应用经验，围绕10项常用任务评估AI性能，包括内容生成、数据分析、翻译等。其测试集包含2485组数据，覆盖10大类、46子类及12种语言，任务长度从8字符到20000字符不等。评分体系由AI与人类协作设计，并已在开源平台Hugging Face上线。三星DX部门CTO兼三星研究院院长表示，TRUEBench将确立生产力领域评估标准，巩固三星技术领先地位。

原文链接

LunarCoder

09-25 19:11:07

AI基准测试工具

TRUEBench

三星

分享至

打开微信扫一扫

内容投诉

生成图片

LLM总是把简单任务复杂化，Karpathy无语：有些任务无需那么多思考

标题：LLM总是把简单任务复杂化，Karpathy无语：有些任务无需那么多思考随着推理大模型和思维链的普及，AI在复杂任务中的表现大幅提升，但也逐渐暴露出一个问题：它常常把简单任务复杂化。AI领域专家Andrej Karpathy对此现象表示无奈，指出当前大模型在默认状态下过于“自主代理化”，...

原文链接

数码游侠

08-12 11:21:24

基准测试

深度思考

过度思考

分享至

打开微信扫一扫

内容投诉

生成图片

多项力压 Grok 4、OpenAI o3，谷歌推出 Gemini 2.5 Deep Think 模型

8月1日，谷歌正式发布Gemini 2.5 Deep Think模型，现已向Google AI Ultra订阅用户开放。该模型在多个基准测试中超越OpenAI的o3和xAI的Grok 4，性能显著提升。Deep Think模式可在作答前综合多个假设进行推理，并集成代码执行与谷歌搜索等功能。谷歌透露，该模型是此前在国际数学奥林匹克竞赛中获金牌模型的优化变体，虽经加速优化，但在2025年IMO基准测试中仅达铜牌水平。目前，用户可在Gemini应用中限定次数使用Deep Think功能，未来几周还将通过Gemini API向开发者提供不同版本。

原文链接

数字墨迹

08-01 23:08:15

Gemini 2.5 Deep Think

基准测试

谷歌

分享至

打开微信扫一扫

内容投诉

生成图片

对话中国信通院魏凯：AI下半场，大模型要少说话，多做事

标题：对话中国信通院魏凯：AI下半场，大模型要少说话，多做事今年2月，DeepSeek爆火，而中国信通院早在之前就观察到国内大模型性能快速提升。魏凯表示，2024年多个团队持续优化模型，每月都有新进展。例如，DeepSeek在4月排名靠后，8月进入前十，12月发布的DeepSeek-V3成为基...

原文链接

元界筑梦师

07-01 08:51:07

Agent

AI基准测试

大模型

分享至

打开微信扫一扫

内容投诉

生成图片

基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传

标题：基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传你是否曾对大语言模型（LLMs）下达过明确的“长度指令”？比如，“写一篇10,000字的长文”。看似简单的要求，实际却让模型“力不从心”：要么生成不足，要么重复啰嗦，甚至直接罢工。最新研究论文《LIFEB...

原文链接

电子诗篇

05-29 15:34:10

基准测试

大语言模型

长度指令

分享至

打开微信扫一扫

内容投诉

生成图片

红杉中国推出全新AI基准测试xbench，要在AI下半场定义“好问题”

标题：红杉中国推出全新AI基准测试xbench，要在AI下半场定义“好问题” 随着基础模型快速发展及AI Agent规模化应用，传统基准测试难以真实反映AI系统能力。为解决这一问题，红杉中国推出xbench，首个由投资机构联合十余家顶尖高校和研究机构打造的AI基准测试。它采用双轨评估体系和长青评估机制，不仅衡量理论上限，还关注实际效用。 xbench包含两部分：一是评估AI系统的技术边界，二是量化其在真实场景的价值。通过动态更新测试内容，保持时效性。首期发布了科学问题解答和中文互联网搜索两大测评集，并提出招聘和营销领域的垂类评测框架。 xbench源于红杉中国的内部实践，现向全社区开放，鼓励开发者、企业和研究者参与共建，共同推动AI能力评估新标准的形成。

原文链接