综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
近日,百度智能云研发的FM Agent登顶OpenAI机器学习工程权威基准MLE-Bench,超越微软R&D Agent和OpenAI的AIDE系统,取得SOTA成绩。MLE-Bench测试集包含75个真实Kaggle竞赛项目,评估AI在模型训练、数据准备等任务中的实战能力。FM Agent在中等和高难度任务上表现突出,具备自主优化和自驱演化能力。此外,百度近期在AI领域成果显著,开源的PaddleOCR-VL模型以0.9B参数量在全球榜单OmniDocBench夺得综合性能第一。百度年度科技大会“百度世界2025”定档11月13日,备受期待。
原文链接
在10月11日,科技媒体The Decoder报道,OpenAI公司推出名为MLE-bench的新基准,旨在评估AI智能体在开发机器学习解决方案的能力。此基准包括75个Kaggle竞赛,涉及多个领域,如自然语言处理、计算机视觉和信号处理。Kaggle是一个专注于数据科学和机器学习的在线竞赛平台,设有从新手到特级大师的不同技能层级。OpenAI在MLE-bench上使用AIDE框架的o1-preview模型,其在16.9%的比赛中至少获得铜牌,超越了Anthropic的Claude 3.5 Sonnet。此模型在7场竞赛中夺金,达到特级大师标准。尽管MLE-bench有局限性,OpenAI仍希望通过此工具推动AI在机器学习领域的进步,基准已公开在GitHub上。这一成就标志着OpenAI在AI竞赛中的新里程碑,展示了AI在解决复杂问题方面的潜力。
原文链接
加载更多
暂无内容