标题:首个Data Agent基准测试发布!2007任务覆盖多源数据
正文:
数据智能体好不好用?南洋理工大学、新加坡国立大学与华为联合推出首个针对数据智能体的综合性基准测试FDABench。该基准涵盖50多个领域,包含2007个测试任务,涉及数据库、PDF、视频、音频等异构数据源,并设计了单选、多选和报告撰写三种任务类型,全面评估数据智能体能力。
FDABench还引入了Agent-Expert协作框架,支持多种智能体架构(如Planning、Tool-use、Reflection、Multi-Agent),确保兼容性并降低测试复杂度。团队通过FDABench对多种数据智能体系统进行了评估,发现不同系统在响应质量、准确性、延迟和计算成本上各有优劣。
研究揭示了三个关键点:
1. 架构复杂度权衡:复杂架构(如Multi-Agent)分析准确性高,但资源消耗是简单架构的6-20倍;简单架构(如Planning)效率高,但适应性有限。
2. 计算资源重分配:不同架构通过重新分配计算资源实现优化,例如Reflection将26-29%资源用于重试以提升输出质量,而Planning则优先保证生成效率。
3. 模型-架构适配性:大规模预训练模型在复杂架构中表现突出,但部分Thinking Model可能出现“双重推理惩罚”,表明模型选择需匹配架构复杂度。
总结来说,没有完美的数据智能体,有的快但复杂任务弱,有的准却昂贵且慢。FDABench的作用就是帮助企业找到最适合自身需求的系统。
论文地址:https://arxiv.org/pdf/2509.02473
代码地址:https://github.com/fdabench/FDAbench
原文链接
本文链接:https://kx.umi6.com/article/25038.html
转载请注明文章出处
相关推荐
.png)
换一换
Data Agent如何帮助企业打造懂你的“电子牛马”?|数势xSelectDB
2025-07-22 13:33:44
Data Agent,是个伪命题?
2025-07-24 19:15:19
首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽
2025-09-11 13:54:29
Data Agent如何帮助企业打造懂你的“电子牛马”?|数势xSelectDB
2025-07-07 18:33:09
甲骨文千亿美元大单引爆算力热潮 港股AI基建概念集体走强
2025-09-11 15:03:26
SK海力士开始供应新的高性能NAND闪存 以满足AI设备需求
2025-09-11 13:57:47
她们估值840亿,刚发了第一个AI成果
2025-09-11 10:53:15
落地为王,谁在用AI撬动百亿产业?
2025-09-11 14:59:02
3000 亿美元历史级大单:消息称 OpenAI 与 Oracle 甲骨文达成重磅云计算交易
2025-09-11 09:50:48
爱诗科技完成6000万美元B轮融资
2025-09-10 11:35:05
1060亿美元未确认合同!谷歌云透露订单拿到手软 巨头“AI正循环”或正兑现
2025-09-10 16:40:43
游戏多元时代,谁主沉浮?
2025-09-10 09:30:28
李飞飞一年前究竟说了啥?怎么又火了
2025-09-11 14:55:23
495 文章
169309 浏览
24小时热文
更多

-
2025-09-11 16:00:27
-
2025-09-11 16:00:18
-
2025-09-11 15:59:18