标题:北大伯克利联手“拷问”大模型:最强Agent也仅40分!新基准专治“不听话”的AI分析师
正文:
给大模型当老师,让它按你的想法一步步做数据分析,有多难?结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,任务成功率最高也只有40%。这项名为IDA-Bench的新基准,专为模拟真实世界中“边想边改”的分析场景而设计。
它不再是给模型一道题,让它一次性完成,而是模拟真实的数据分析师,通过对话逐步下达指令,考察Agent在多轮交互中的能力。这项工作由北京大学与加州大学伯克利分校的顶尖学者联合打造,包括机器学习泰斗Michael I. Jordan教授、仿真科学领域专家郑泽宇副教授以及ACM/IEEE Fellow邓小铁教授。
目前,主流大模型在单轮任务中表现优异,但在真实数据分析中,工作流程是迭代且探索性的。现有评估基准忽视了这种动态交互,无法全面评估Agent的可靠性。为此,IDA-Bench应运而生,包含指令材料、模拟用户、Agent和沙盒环境四大组件。它通过自动化流程从Kaggle提取任务,确保测试的真实性和时效性。
初步评估显示,最先进模型的成功率不足50%,Gemini-2.5-Pro等位列第一梯队,但“基准达成率”仅为40%。不同模型展现出截然不同的“性格”,Claude-3.7表现得“过度自信”,而Gemini-2.5-Pro则显得“过度谨慎”。此外,Agent常犯低级错误,如未生成有效文件或提交错误格式。这些发现表明,LLM Agent在理解、遵循和交互能力上仍有待提升。
论文链接:https://arxiv.org/abs/2505.18223
项目主页:https://github.com/lhydave/IDA-Bench
原文链接
本文链接:https://kx.umi6.com/article/19985.html
转载请注明文章出处
相关推荐
换一换
Kimi春节档挣超一年钱!这口“龙虾肉”大厂开始抢吃了
2026-02-26 01:05:27
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
用DeepSeek改造ERP,到底难在哪?怎么破?
2025-10-11 09:33:30
大厂AI新战场:AQ狂飙,蚂蚁押注大健康赛道
2025-11-09 16:34:57
消息称小米研发智能问答助手产品“Mi Chat”
2025-12-09 17:51:08
腾讯AI下了一场「及时雨」
2025-12-19 10:42:16
中国AI云,开始「抢座次」了
2025-11-20 11:17:00
马年4大顶流模型会师阿里云Coding Plan开工!Token量大管饱,自由切换真香
2026-02-26 00:01:12
百度推动大模型与搜推业务融合
2026-03-18 15:35:09
中国企业调用大模型日均达37万亿tokens
2026-02-24 13:54:18
开源 AI 模型 TOP5,被中国厂商包圆
2025-10-15 18:39:57
智谱上市后首份财报:超7.24亿元!国内收入最高大模型公司,MaaS发力了
2026-03-31 21:04:07
把12个AI凑到一起打工,它们竟然搞起“小团体”?
2025-10-16 22:02:39
694 文章
549648 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38