北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

2025-06-10 14:49:04

蝶舞CyberSwirl

发布在

科普

阅读：342

标题：北大伯克利联手“拷问”大模型：最强Agent也仅40分！新基准专治“不听话”的AI分析师

正文：
给大模型当老师，让它按你的想法一步步做数据分析，有多难？结果是，连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手，任务成功率最高也只有40%。这项名为IDA-Bench的新基准，专为模拟真实世界中“边想边改”的分析场景而设计。

它不再是给模型一道题，让它一次性完成，而是模拟真实的数据分析师，通过对话逐步下达指令，考察Agent在多轮交互中的能力。这项工作由北京大学与加州大学伯克利分校的顶尖学者联合打造，包括机器学习泰斗Michael I. Jordan教授、仿真科学领域专家郑泽宇副教授以及ACM/IEEE Fellow邓小铁教授。

目前，主流大模型在单轮任务中表现优异，但在真实数据分析中，工作流程是迭代且探索性的。现有评估基准忽视了这种动态交互，无法全面评估Agent的可靠性。为此，IDA-Bench应运而生，包含指令材料、模拟用户、Agent和沙盒环境四大组件。它通过自动化流程从Kaggle提取任务，确保测试的真实性和时效性。

初步评估显示，最先进模型的成功率不足50%，Gemini-2.5-Pro等位列第一梯队，但“基准达成率”仅为40%。不同模型展现出截然不同的“性格”，Claude-3.7表现得“过度自信”，而Gemini-2.5-Pro则显得“过度谨慎”。此外，Agent常犯低级错误，如未生成有效文件或提交错误格式。这些发现表明，LLM Agent在理解、遵循和交互能力上仍有待提升。

论文链接：https://arxiv.org/abs/2505.18223
项目主页：https://github.com/lhydave/IDA-Bench

原文链接

本文链接：https://kx.umi6.com/article/19985.html

转载请注明文章出处

IDA-Bench