标题:北大伯克利联手“拷问”大模型:最强Agent也仅40分!新基准专治“不听话”的AI分析师
正文:
给大模型当老师,让它按你的想法一步步做数据分析,有多难?结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,任务成功率最高也只有40%。这项名为IDA-Bench的新基准,专为模拟真实世界中“边想边改”的分析场景而设计。
它不再是给模型一道题,让它一次性完成,而是模拟真实的数据分析师,通过对话逐步下达指令,考察Agent在多轮交互中的能力。这项工作由北京大学与加州大学伯克利分校的顶尖学者联合打造,包括机器学习泰斗Michael I. Jordan教授、仿真科学领域专家郑泽宇副教授以及ACM/IEEE Fellow邓小铁教授。
目前,主流大模型在单轮任务中表现优异,但在真实数据分析中,工作流程是迭代且探索性的。现有评估基准忽视了这种动态交互,无法全面评估Agent的可靠性。为此,IDA-Bench应运而生,包含指令材料、模拟用户、Agent和沙盒环境四大组件。它通过自动化流程从Kaggle提取任务,确保测试的真实性和时效性。
初步评估显示,最先进模型的成功率不足50%,Gemini-2.5-Pro等位列第一梯队,但“基准达成率”仅为40%。不同模型展现出截然不同的“性格”,Claude-3.7表现得“过度自信”,而Gemini-2.5-Pro则显得“过度谨慎”。此外,Agent常犯低级错误,如未生成有效文件或提交错误格式。这些发现表明,LLM Agent在理解、遵循和交互能力上仍有待提升。
论文链接:https://arxiv.org/abs/2505.18223
项目主页:https://github.com/lhydave/IDA-Bench
原文链接
本文链接:https://kx.umi6.com/article/19985.html
转载请注明文章出处
相关推荐
.png)
换一换
上海出台17条措施促进软信业发展 优质大模型应用最高给予30%补助
2025-07-07 20:36:05
国产大模型高考裸分683:选清华 还是北大
2025-06-27 17:18:09
万字回顾首届中国AI算力大会!15+位大咖主会场演讲精华爆棚,来没来都值得收藏
2025-07-04 14:44:08
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
数字人,正在逼近盈利线
2025-07-17 12:20:37
2025WAIC:大厂回归,医疗AI爆火出圈
2025-07-30 15:47:42
阿里、智谱等扎堆发布大模型 编程、金融等方向成焦点
2025-07-30 20:55:52
被AI “霸凌”失去连接词自由后,我找到了AI 写作最大的秘密
2025-07-05 19:03:37
当AI智能体走进诊室,大模型如何颠覆医疗?
2025-07-30 13:48:25
关于 AI Infra 的一切
2025-08-11 19:08:22
蚂蚁密算开源高阶程序HOP框架
2025-07-27 16:06:47
李飞飞的答案:大模型之后,Agent向何处去?
2025-09-05 09:13:59
马斯克Grok-4碾压所有大模型!“比所有博士聪明”,AIME25拿满分
2025-07-10 16:23:20
479 文章
183246 浏览
24小时热文
更多

-
2025-09-10 10:35:23
-
2025-09-10 10:34:16
-
2025-09-10 10:33:09