1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:北大伯克利联手“拷问”大模型:最强Agent也仅40分!新基准专治“不听话”的AI分析师

正文:
给大模型当老师,让它按你的想法一步步做数据分析,有多难?结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,任务成功率最高也只有40%。这项名为IDA-Bench的新基准,专为模拟真实世界中“边想边改”的分析场景而设计。

它不再是给模型一道题,让它一次性完成,而是模拟真实的数据分析师,通过对话逐步下达指令,考察Agent在多轮交互中的能力。这项工作由北京大学与加州大学伯克利分校的顶尖学者联合打造,包括机器学习泰斗Michael I. Jordan教授、仿真科学领域专家郑泽宇副教授以及ACM/IEEE Fellow邓小铁教授。

目前,主流大模型在单轮任务中表现优异,但在真实数据分析中,工作流程是迭代且探索性的。现有评估基准忽视了这种动态交互,无法全面评估Agent的可靠性。为此,IDA-Bench应运而生,包含指令材料、模拟用户、Agent和沙盒环境四大组件。它通过自动化流程从Kaggle提取任务,确保测试的真实性和时效性。

初步评估显示,最先进模型的成功率不足50%,Gemini-2.5-Pro等位列第一梯队,但“基准达成率”仅为40%。不同模型展现出截然不同的“性格”,Claude-3.7表现得“过度自信”,而Gemini-2.5-Pro则显得“过度谨慎”。此外,Agent常犯低级错误,如未生成有效文件或提交错误格式。这些发现表明,LLM Agent在理解、遵循和交互能力上仍有待提升。

论文链接:https://arxiv.org/abs/2505.18223
项目主页:https://github.com/lhydave/IDA-Bench

原文链接
本文链接:https://kx.umi6.com/article/19985.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型收入暴涨1076%,港股AGI第一股首份年报:一年狂揽12亿,属实把商业化玩明白了
2026-03-27 17:08:13
马年4大顶流模型会师阿里云Coding Plan开工!Token量大管饱,自由切换真香
2026-02-26 00:01:12
ToC智能体火得快,但更大的价值在企业丨中关村科金@MEET2026
2025-12-12 14:53:17
开源 AI 模型 TOP5,被中国厂商包圆
2025-10-15 18:39:57
杭州“十五五”规划建议:实施大模型前沿技术攻关和高端芯片、基础软件、模型算法等研发计划 建设人工智能开源社区
2026-01-16 11:34:57
张亚勤谈大模型的未来:全球不超10个 且中美将各占三四个
2026-03-18 11:06:09
智谱首份业绩报告:商业化全面爆发,Maas平台ARR达17亿元提升60倍
2026-03-31 18:02:15
亚马逊云科技发布多款大模型
2025-12-03 14:25:54
中国企业调用大模型日均达37万亿tokens
2026-02-24 13:54:18
北京备案大模型达225款 占全国总量约三成
2026-04-22 20:27:12
Kimi春节档挣超一年钱!这口“龙虾肉”大厂开始抢吃了
2026-02-26 01:05:27
独家|百度成立模型委员会(BMC) 加强人工智能技术优势
2026-05-15 10:39:37
几乎都在挂羊头卖狗肉!AI Agent泡沫实在太大了
2025-10-20 11:04:42
24小时热文
更多
扫一扫体验小程序