AI基准测试 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

牛津大学研究：当前基准测试普遍夸大了 AI 模型的性能

牛津大学互联网研究所联合30多位研究人员发布研究称，当前用于评估AI模型性能的基准测试普遍存在夸大问题，缺乏科学严谨性。研究分析了445项主流基准测试，发现约一半未能明确定义测量目标，且常重复使用数据和方法，统计比较也不够可靠。高级研究员亚当・马赫迪指出，这些测试可能误导公众对AI能力的认知，例如通过GSM8K测试评估数学推理能力时，答对问题未必代表真正具备推理能力。研究呼吁改进基准测试，提出八项建议，包括明确评估范围、构建代表性任务组合及加强统计分析，以提升测试透明度与可信度。该研究于11月6日发布，引发广泛关注。

原文链接

WisdomTrail

11-06 19:10:49

AI基准测试

构念效度

牛津大学

分享至

打开微信扫一扫

内容投诉

生成图片

“为了全人类，提交你最难的问题”

“为了全人类，提交你最难的问题” AI的聪明程度已经快超出人类评估能力。早期，人们用各种题库测试AI，但如今大部分模型在MMLU等基准测试上的准确率已超90%，甚至满分横扫。图灵测试早已无人提及，现有考试无法再有效衡量AI的进步。为应对这一问题，“人类最后的考试”（Humanity's Last ...

原文链接

月光编码师

09-26 07:19:37

AI基准测试

HLE

人类最后的考试

分享至

打开微信扫一扫

内容投诉

生成图片

不满现有工具，三星推出自研 AI 性能基准测试工具 TRUEBench

9月25日，三星发布自研AI性能基准测试工具TRUEBench（可信真实场景使用评估基准）。该工具由三星研究院开发，旨在解决现有AI基准测试工具的不足，如仅关注英语和单轮问答结构等问题。TRUEBench涵盖多样化对话场景与多语言环境，基于企业内部AI应用经验，围绕10项常用任务评估AI性能，包括内容生成、数据分析、翻译等。其测试集包含2485组数据，覆盖10大类、46子类及12种语言，任务长度从8字符到20000字符不等。评分体系由AI与人类协作设计，并已在开源平台Hugging Face上线。三星DX部门CTO兼三星研究院院长表示，TRUEBench将确立生产力领域评估标准，巩固三星技术领先地位。

原文链接

LunarCoder

09-25 19:11:07

AI基准测试工具

TRUEBench

三星

分享至

打开微信扫一扫

内容投诉

生成图片

对话中国信通院魏凯：AI下半场，大模型要少说话，多做事

标题：对话中国信通院魏凯：AI下半场，大模型要少说话，多做事今年2月，DeepSeek爆火，而中国信通院早在之前就观察到国内大模型性能快速提升。魏凯表示，2024年多个团队持续优化模型，每月都有新进展。例如，DeepSeek在4月排名靠后，8月进入前十，12月发布的DeepSeek-V3成为基...

原文链接

元界筑梦师

07-01 08:51:07

Agent

AI基准测试

大模型

分享至

打开微信扫一扫

内容投诉

生成图片

红杉中国推出全新AI基准测试xbench，要在AI下半场定义“好问题”

标题：红杉中国推出全新AI基准测试xbench，要在AI下半场定义“好问题” 随着基础模型快速发展及AI Agent规模化应用，传统基准测试难以真实反映AI系统能力。为解决这一问题，红杉中国推出xbench，首个由投资机构联合十余家顶尖高校和研究机构打造的AI基准测试。它采用双轨评估体系和长青评估机制，不仅衡量理论上限，还关注实际效用。 xbench包含两部分：一是评估AI系统的技术边界，二是量化其在真实场景的价值。通过动态更新测试内容，保持时效性。首期发布了科学问题解答和中文互联网搜索两大测评集，并提出招聘和营销领域的垂类评测框架。 xbench源于红杉中国的内部实践，现向全社区开放，鼓励开发者、企业和研究者参与共建，共同推动AI能力评估新标准的形成。

原文链接

Journeyman

05-26 17:32:29

AI基准测试

xbench

评估体系

分享至

打开微信扫一扫

内容投诉

生成图片

红杉中国，刚刚发了一篇Paper

红杉中国近日推出全新AI基准测试工具xbench，并发布相关论文，成为首家由投资机构主导发布此类工具的机构。xbench针对快速发展的AI模型和Agent面临的基准测试有效性缩短问题，提出双轨评估体系，包括评估能力上限和技术边界，以及量化实际场景效用价值。其采用长青评估机制，动态更新测试内容以保持时效性，追踪主流AI产品能力演进，预测技术-市场契合点。此举不仅创新性地解决当前AI基准测试痛点，还可能改变投资机构的传统评估方式，推动AGI时代的标准化建设与商业化探索。

原文链接

元界筑梦师

05-26 12:35:56

AI基准测试

技术-市场契合

红杉中国

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI 启动先锋计划，旨在重塑 AI 模型评分体系

4月10日消息，OpenAI宣布启动OpenAI先锋计划，目标是改善现有AI模型的评分体系。目前的AI基准测试被认为存在缺陷，无法准确反映模型的实际性能。该计划将聚焦于开发能设定优秀标准的评估体系，特别是在法律、金融、医疗等特定领域。OpenAI计划与多家公司合作，设计定制化基准测试，并在未来几个月内公开这些测试。首批参与者主要来自初创公司，它们将在高价值应用场景中验证AI的实际影响。此外，参与公司可与OpenAI合作，利用强化微调技术优化模型表现。不过，由OpenAI资助并发布的基准测试可能面临社区对其公正性的质疑，尤其是考虑到其过往的类似经历。

原文链接

GhostPilot

04-10 08:35:44

AI基准测试

OpenAI

先锋计划

分享至

打开微信扫一扫

内容投诉

生成图片

人类给AI的“最后考试”：DeepSeek-R1、o1都低于10%

标题：人类给AI的“最后考试”：HLE基准测试随着AI大模型在众多任务上超越人类水平，人类与AI共生时代来临。为了跟踪AI进展，新的基准HLE（Humanity's Last Exam）应运而生。HLE是一个多模态基准，涵盖3000多个高难度问题，涉及上百门学科，由全球近1000名专家创建。 HL...

原文链接

AI奇点纪元

02-11 10:47:05

AI基准测试

HLE

模型评估

分享至

打开微信扫一扫

内容投诉

生成图片

MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5

MLCommons于12月11日在美国加州发布MLPerf Client基准测试0.5版本，这是首个公开版本。该基准测试由AMD、英特尔、微软、英伟达、高通及顶级PC OEM等公司合作开发，旨在评估消费级PC的AI性能。MLPerf Client基于Meta的Llama 2 7B开源LLM，包含内容...

原文链接