基准测试 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

近日，UC伯克利发布全新AI智能体基准测试“智能体最后的考试”（ALE），让AI在真实软件中完成3D建模、特效合成等实际工作。结果令人意外：在最难档位，公认最强的Claude Fable 5与GPT 5.5均吃零蛋；整体排名中，GPT 5.5包揽冠亚军，逆袭击败了此前在主流评测中碾压它的Fable 5。此外，Fable 5的运行成本高达GPT 5.5的四倍，耗时也更长。该测试覆盖55个行业，冠军通过率仅24%，彻底揭开了顶尖AI“答题学霸、干活露馅”的底牌，表明AI全面取代人类工作仍道阻且长。

原文链接

智慧轨迹

06-12 12:30:03

分享至

打开微信扫一扫

内容投诉

生成图片

具身智能领域首个行业标准正式发布

3月26日，中国信息通信研究院联合40余家单位发布具身智能领域首个行业标准，构建统一基准测试框架，推动评测进入“有标可依”新阶段。标准聚焦人工智能基础技术和测试方法，明确系统框架与能力要求，将于2026年6月1日实施。内容涵盖仿真与真实环境下的测试框架、方法及指标，支持基础、认知推理和全链路闭环能力测试，包括静态、动态仿真及真实环境测试。编制过程中同步建设配套资源，现已建成1万多条任务库，覆盖300种任务类型，并开发数据管理、任务生成等工具，确保标准可操作性。（央视新闻）

原文链接

智慧轨迹

03-26 22:25:30

分享至

打开微信扫一扫

内容投诉

生成图片

建议你不要再相信AI基准测试，排行榜已经没啥公信力了

2025年，大模型竞争进入新阶段，但基准测试公信力下降，实际使用常令人失望。业内揭露了基准测试作弊、测试集泄露和排行榜操纵等问题。Scale AI 2024年11月论文显示，许多开源模型在新测试基准下的表现大幅下滑。Cohere 2025年4月指出知名评测平台偏向大公司，Meta等私下多次测试模型。此外，数据集污染和刷榜现象普遍，导致基准测试不再反映真实性能，成为厂商营销工具。专家认为现有基准测试体系存在结构性缺陷，过于静态和单一化。新的动态测试集逐渐兴起，企业更多依赖私有基准测试集，关注模型稳定性、迭代速度和开源程度。赵海教授指出，未来AGI系统将无需依赖人工标注，而主流大模型的核心问题仍是幻觉和指令遵循能力。

原文链接

元界筑梦师

12-04 12:18:33

分享至

打开微信扫一扫

内容投诉

生成图片

LLM总是把简单任务复杂化，Karpathy无语：有些任务无需那么多思考

标题：LLM总是把简单任务复杂化，Karpathy无语：有些任务无需那么多思考随着推理大模型和思维链的普及，AI在复杂任务中的表现大幅提升，但也逐渐暴露出一个问题：它常常把简单任务复杂化。AI领域专家Andrej Karpathy对此现象表示无奈，指出当前大模型在默认状态下过于“自主代理化”，...

原文链接

数码游侠

08-12 11:21:24

分享至

打开微信扫一扫

内容投诉

生成图片

多项力压 Grok 4、OpenAI o3，谷歌推出 Gemini 2.5 Deep Think 模型

8月1日，谷歌正式发布Gemini 2.5 Deep Think模型，现已向Google AI Ultra订阅用户开放。该模型在多个基准测试中超越OpenAI的o3和xAI的Grok 4，性能显著提升。Deep Think模式可在作答前综合多个假设进行推理，并集成代码执行与谷歌搜索等功能。谷歌透露，该模型是此前在国际数学奥林匹克竞赛中获金牌模型的优化变体，虽经加速优化，但在2025年IMO基准测试中仅达铜牌水平。目前，用户可在Gemini应用中限定次数使用Deep Think功能，未来几周还将通过Gemini API向开发者提供不同版本。

原文链接

数字墨迹

08-01 23:08:15

分享至

打开微信扫一扫

内容投诉

生成图片

基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传

标题：基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传你是否曾对大语言模型（LLMs）下达过明确的“长度指令”？比如，“写一篇10,000字的长文”。看似简单的要求，实际却让模型“力不从心”：要么生成不足，要么重复啰嗦，甚至直接罢工。最新研究论文《LIFEB...

原文链接

电子诗篇

05-29 15:34:10

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-4o不敌Qwen，无一模型及格！UC伯克利港大等提出多模态新基准

标题：GPT-4o不敌Qwen，无一模型及格！UC伯克利等提出多模态新基准多视图理解推理有了新的评判标准！多视图理解指从不同视角整合视觉信息以实现理解决策。例如，机器人需根据多摄像头画面判断物体位置、距离和运动方向。然而，由于缺乏评估基准，该领域研究进展缓慢。 UC伯克利、忆生科技、香港大学等...

原文链接

AI创意引擎

05-16 13:37:28

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI o3 模型遭质疑？第三方实测分数远低于自测成绩

北京时间4月17日，OpenAI发布多模态推理大模型o3，自称性能超越行业对手。然而，研究机构Epoch AI的第三方测试显示，o3在FrontierMath上的得分仅为10%，远低于OpenAI此前宣称的25%。Epoch AI认为，双方测试差异可能源于评估框架、测试时间和数据集的不同。此外，ARC Prize Foundation称公开版o3经过优化，性能不及预发布版本。基准测试争议正成为AI行业常态，近期xAI和Meta的模型也面临类似质疑。

原文链接

AI幻想空间站

04-21 09:34:53

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI o3 模型基准测试成绩遭质疑，实测分数远不及宣称

4月21日，OpenAI的o3模型基准测试成绩遭质疑。去年12月，OpenAI宣称o3能在FrontierMath上正确回答超25%的问题，远超对手。但Epoch研究所的独立测试显示，公开版o3得分仅约10%，低于预期。OpenAI称其高分基于更强计算资源，而Epoch认为测试设置或评估版本不同导致差异。ARC Prize基金会证实公开版o3为调整版，性能较测试版弱。尽管如此，后续o3衍生模型表现更优，OpenAI计划推出更强版本o3-pro。此事凸显AI基准测试的不确定性，类似争议在行业内愈发常见。

原文链接

智能维度跳跃

04-21 08:32:30

分享至

打开微信扫一扫

内容投诉

生成图片

AI“推理”模型兴起，基准测试成本飙升

近日，随着AI推理模型的兴起，基准测试成本显著上升。据第三方机构“人工智能分析”数据，评估OpenAI的o1推理模型需花费2767.05美元，远高于非推理模型GPT-4o的108.85美元。类似地，Anthropic的Claude 3.7 Sonnet测试成本为1485.35美元，而其非推理版本仅需81.41美元。高昂的成本主要源于推理模型生成大量token，且现代基准测试更复杂，涉及多步骤任务。例如，OpenAI的o1生成超4400万个token，是GPT-4o的八倍。尽管模型性能提升，测试成本仍居高不下。AI初创公司“通用推理”的CEO罗斯·泰勒指出，MMLU Pro测试单次成本已超1800美元。专家警告，免费或补贴的模型测试可能影响评估公正性。截至发稿，相关机构正计划扩大测试预算以应对这一挑战。

原文链接