标题:北大伯克利联手“拷问”大模型:最强Agent也仅40分!新基准专治“不听话”的AI分析师
正文:
给大模型当老师,让它按你的想法一步步做数据分析,有多难?结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,任务成功率最高也只有40%。这项名为IDA-Bench的新基准,专为模拟真实世界中“边想边改”的分析场景而设计。
它不再是给模型一道题,让它一次性完成,而是模拟真实的数据分析师,通过对话逐步下达指令,考察Agent在多轮交互中的能力。这项工作由北京大学与加州大学伯克利分校的顶尖学者联合打造,包括机器学习泰斗Michael I. Jordan教授、仿真科学领域专家郑泽宇副教授以及ACM/IEEE Fellow邓小铁教授。
目前,主流大模型在单轮任务中表现优异,但在真实数据分析中,工作流程是迭代且探索性的。现有评估基准忽视了这种动态交互,无法全面评估Agent的可靠性。为此,IDA-Bench应运而生,包含指令材料、模拟用户、Agent和沙盒环境四大组件。它通过自动化流程从Kaggle提取任务,确保测试的真实性和时效性。
初步评估显示,最先进模型的成功率不足50%,Gemini-2.5-Pro等位列第一梯队,但“基准达成率”仅为40%。不同模型展现出截然不同的“性格”,Claude-3.7表现得“过度自信”,而Gemini-2.5-Pro则显得“过度谨慎”。此外,Agent常犯低级错误,如未生成有效文件或提交错误格式。这些发现表明,LLM Agent在理解、遵循和交互能力上仍有待提升。
论文链接:https://arxiv.org/abs/2505.18223
项目主页:https://github.com/lhydave/IDA-Bench
原文链接
本文链接:https://kx.umi6.com/article/19985.html
转载请注明文章出处
相关推荐
换一换
大模型再战高考:从一本直升985
2025-06-30 23:48:58
一场「狼人杀」,考倒了一堆大模型
2025-08-28 14:28:50
人民呼唤DeepSeek!
2025-07-16 12:02:16
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
1300000000000000!谷歌每月Tokens消耗量曝光(别数了是千万亿)
2025-10-11 09:26:13
李彦宏:百度下一代旗舰大模型研发中 会在准备就绪后尽快发布
2025-08-20 21:19:28
字节跳动、阿里AI“大将”出走 大模型厂商中高层流动持续
2025-08-25 21:35:41
两部门:到2027年推动五个以上专业大模型在电网、发电、煤炭、油气等行业深度应用
2025-09-08 10:56:26
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
如何避免成为AI墓地的一员?
2025-07-23 13:50:51
2025WAIC:大厂回归,医疗AI爆火出圈
2025-07-30 15:47:42
GPT-5能让普通人变成博士,但魔法依旧没有
2025-08-08 12:10:14
智谱与市城投集团合作发布杭州城投人工智能产业大模型项目(一期)建设成果
2025-09-15 20:01:43
525 文章
265255 浏览
24小时热文
更多
-
2025-10-26 14:12:59 -
2025-10-26 13:13:50 -
2025-10-26 13:12:39