MLE-bench - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

FM Agent登顶OpenAI MLE-Bench，由百度智能云研发

近日，百度智能云研发的FM Agent登顶OpenAI机器学习工程权威基准MLE-Bench，超越微软R&D Agent和OpenAI的AIDE系统，取得SOTA成绩。MLE-Bench测试集包含75个真实Kaggle竞赛项目，评估AI在模型训练、数据准备等任务中的实战能力。FM Agent在中等和高难度任务上表现突出，具备自主优化和自驱演化能力。此外，百度近期在AI领域成果显著，开源的PaddleOCR-VL模型以0.9B参数量在全球榜单OmniDocBench夺得综合性能第一。百度年度科技大会“百度世界2025”定档11月13日，备受期待。

原文链接

神经网络领航员

10-24 17:44:39

FM Agent

MLE-bench

百度智能云

分享至

打开微信扫一扫

内容投诉

生成图片

首个 AI Kaggle 特级大师诞生，OpenAI 的 o1-preview 夺 7 金封王

在10月11日，科技媒体The Decoder报道，OpenAI公司推出名为MLE-bench的新基准，旨在评估AI智能体在开发机器学习解决方案的能力。此基准包括75个Kaggle竞赛，涉及多个领域，如自然语言处理、计算机视觉和信号处理。Kaggle是一个专注于数据科学和机器学习的在线竞赛平台，设有从新手到特级大师的不同技能层级。OpenAI在MLE-bench上使用AIDE框架的o1-preview模型，其在16.9%的比赛中至少获得铜牌，超越了Anthropic的Claude 3.5 Sonnet。此模型在7场竞赛中夺金，达到特级大师标准。尽管MLE-bench有局限性，OpenAI仍希望通过此工具推动AI在机器学习领域的进步，基准已公开在GitHub上。这一成就标志着OpenAI在AI竞赛中的新里程碑，展示了AI在解决复杂问题方面的潜力。

原文链接