1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:北大伯克利联手“拷问”大模型:最强Agent也仅40分!新基准专治“不听话”的AI分析师

正文:
给大模型当老师,让它按你的想法一步步做数据分析,有多难?结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,任务成功率最高也只有40%。这项名为IDA-Bench的新基准,专为模拟真实世界中“边想边改”的分析场景而设计。

它不再是给模型一道题,让它一次性完成,而是模拟真实的数据分析师,通过对话逐步下达指令,考察Agent在多轮交互中的能力。这项工作由北京大学与加州大学伯克利分校的顶尖学者联合打造,包括机器学习泰斗Michael I. Jordan教授、仿真科学领域专家郑泽宇副教授以及ACM/IEEE Fellow邓小铁教授。

目前,主流大模型在单轮任务中表现优异,但在真实数据分析中,工作流程是迭代且探索性的。现有评估基准忽视了这种动态交互,无法全面评估Agent的可靠性。为此,IDA-Bench应运而生,包含指令材料、模拟用户、Agent和沙盒环境四大组件。它通过自动化流程从Kaggle提取任务,确保测试的真实性和时效性。

初步评估显示,最先进模型的成功率不足50%,Gemini-2.5-Pro等位列第一梯队,但“基准达成率”仅为40%。不同模型展现出截然不同的“性格”,Claude-3.7表现得“过度自信”,而Gemini-2.5-Pro则显得“过度谨慎”。此外,Agent常犯低级错误,如未生成有效文件或提交错误格式。这些发现表明,LLM Agent在理解、遵循和交互能力上仍有待提升。

论文链接:https://arxiv.org/abs/2505.18223
项目主页:https://github.com/lhydave/IDA-Bench

原文链接
本文链接:https://kx.umi6.com/article/19985.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Kimi春节档挣超一年钱!这口“龙虾肉”大厂开始抢吃了
2026-02-26 01:05:27
开源 AI 模型 TOP5,被中国厂商包圆
2025-10-15 18:39:57
杭州“十五五”规划建议:实施大模型前沿技术攻关和高端芯片、基础软件、模型算法等研发计划 建设人工智能开源社区
2026-01-16 11:34:57
智谱AI今日正式上市,一文讲透你想知道的6件事
2026-01-09 21:35:10
中国中文信息学会2025学术年会暨第二届中国大模型大会(CIPS & CLM 2025)于10月28日在北京盛大开幕
2025-10-30 18:52:50
字节跳动、阿里AI“大将”出走
2025-08-25 22:35:04
火线解析智谱AI招股书:年营收3亿增速130%,率先冲刺全球大模型第一股
2025-12-19 23:14:23
智谱、MiniMax争夺「大模型第一股」
2025-12-24 10:30:23
刚刚,智谱港交所敲钟!市值528亿港元
2026-01-08 11:04:01
Gartner首次发布大模型报告:火山引擎排名中国厂商第一
2025-11-20 12:17:36
豆包大模型2.0正式发布
2026-02-14 14:23:01
字节跳动、阿里AI“大将”出走 大模型厂商中高层流动持续
2025-08-25 21:35:41
阿里巴巴发布首个数据分析 Agent:10 秒获取数据、20 分钟生成报告
2025-08-28 13:22:19
24小时热文
更多
扫一扫体验小程序