标题:北大伯克利联手“拷问”大模型:最强Agent也仅40分!新基准专治“不听话”的AI分析师
正文:
给大模型当老师,让它按你的想法一步步做数据分析,有多难?结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,任务成功率最高也只有40%。这项名为IDA-Bench的新基准,专为模拟真实世界中“边想边改”的分析场景而设计。
它不再是给模型一道题,让它一次性完成,而是模拟真实的数据分析师,通过对话逐步下达指令,考察Agent在多轮交互中的能力。这项工作由北京大学与加州大学伯克利分校的顶尖学者联合打造,包括机器学习泰斗Michael I. Jordan教授、仿真科学领域专家郑泽宇副教授以及ACM/IEEE Fellow邓小铁教授。
目前,主流大模型在单轮任务中表现优异,但在真实数据分析中,工作流程是迭代且探索性的。现有评估基准忽视了这种动态交互,无法全面评估Agent的可靠性。为此,IDA-Bench应运而生,包含指令材料、模拟用户、Agent和沙盒环境四大组件。它通过自动化流程从Kaggle提取任务,确保测试的真实性和时效性。
初步评估显示,最先进模型的成功率不足50%,Gemini-2.5-Pro等位列第一梯队,但“基准达成率”仅为40%。不同模型展现出截然不同的“性格”,Claude-3.7表现得“过度自信”,而Gemini-2.5-Pro则显得“过度谨慎”。此外,Agent常犯低级错误,如未生成有效文件或提交错误格式。这些发现表明,LLM Agent在理解、遵循和交互能力上仍有待提升。
论文链接:https://arxiv.org/abs/2505.18223
项目主页:https://github.com/lhydave/IDA-Bench
原文链接
本文链接:https://kx.umi6.com/article/19985.html
转载请注明文章出处
相关推荐
换一换
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
Scaling Law再遭质疑:“退化式AI”竟成终局?
2025-08-04 21:03:25
上海:推动医疗器械相关垂类大模型研发应用
2025-09-15 16:02:14
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025-08-17 12:35:45
从 CIPS & CLM 迈进:中国大模型的智能跃迁
2025-10-30 17:51:34
中国企业调用大模型日均超10万亿Tokens
2025-09-01 12:17:48
「今年业务是去年5倍以上」,工业智能体掀热潮
2025-08-29 12:38:30
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
2025-09-03 17:49:26
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
亚马逊云科技发布多款大模型
2025-12-03 14:25:54
刚刚,智谱港交所敲钟!市值528亿港元
2026-01-08 11:04:01
腾讯升级大模型研发架构 前OpenAI顶尖研究员出任首席AI科学家
2025-12-17 18:59:08
632 文章
431514 浏览
24小时热文
更多
-
2026-01-23 21:15:09 -
2026-01-23 21:14:01 -
2026-01-23 20:15:45