首个Data Agent基准测试来了！2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

2025-09-11 13:54:29

镜像现实MirageX

发布在

科普

阅读：901

标题：首个Data Agent基准测试发布！2007任务覆盖多源数据

正文：
数据智能体好不好用？南洋理工大学、新加坡国立大学与华为联合推出首个针对数据智能体的综合性基准测试FDABench。该基准涵盖50多个领域，包含2007个测试任务，涉及数据库、PDF、视频、音频等异构数据源，并设计了单选、多选和报告撰写三种任务类型，全面评估数据智能体能力。

FDABench还引入了Agent-Expert协作框架，支持多种智能体架构（如Planning、Tool-use、Reflection、Multi-Agent），确保兼容性并降低测试复杂度。团队通过FDABench对多种数据智能体系统进行了评估，发现不同系统在响应质量、准确性、延迟和计算成本上各有优劣。

研究揭示了三个关键点：
1. 架构复杂度权衡：复杂架构（如Multi-Agent）分析准确性高，但资源消耗是简单架构的6-20倍；简单架构（如Planning）效率高，但适应性有限。
2. 计算资源重分配：不同架构通过重新分配计算资源实现优化，例如Reflection将26-29%资源用于重试以提升输出质量，而Planning则优先保证生成效率。
3. 模型-架构适配性：大规模预训练模型在复杂架构中表现突出，但部分Thinking Model可能出现“双重推理惩罚”，表明模型选择需匹配架构复杂度。

总结来说，没有完美的数据智能体，有的快但复杂任务弱，有的准却昂贵且慢。FDABench的作用就是帮助企业找到最适合自身需求的系统。

论文地址：https://arxiv.org/pdf/2509.02473
代码地址：https://github.com/fdabench/FDAbench

原文链接

本文链接：https://kx.umi6.com/article/25038.html

转载请注明文章出处

Data Agent