标题:首个Data Agent基准测试发布!2007任务覆盖多源数据
正文:
数据智能体好不好用?南洋理工大学、新加坡国立大学与华为联合推出首个针对数据智能体的综合性基准测试FDABench。该基准涵盖50多个领域,包含2007个测试任务,涉及数据库、PDF、视频、音频等异构数据源,并设计了单选、多选和报告撰写三种任务类型,全面评估数据智能体能力。
FDABench还引入了Agent-Expert协作框架,支持多种智能体架构(如Planning、Tool-use、Reflection、Multi-Agent),确保兼容性并降低测试复杂度。团队通过FDABench对多种数据智能体系统进行了评估,发现不同系统在响应质量、准确性、延迟和计算成本上各有优劣。
研究揭示了三个关键点:
1. 架构复杂度权衡:复杂架构(如Multi-Agent)分析准确性高,但资源消耗是简单架构的6-20倍;简单架构(如Planning)效率高,但适应性有限。
2. 计算资源重分配:不同架构通过重新分配计算资源实现优化,例如Reflection将26-29%资源用于重试以提升输出质量,而Planning则优先保证生成效率。
3. 模型-架构适配性:大规模预训练模型在复杂架构中表现突出,但部分Thinking Model可能出现“双重推理惩罚”,表明模型选择需匹配架构复杂度。
总结来说,没有完美的数据智能体,有的快但复杂任务弱,有的准却昂贵且慢。FDABench的作用就是帮助企业找到最适合自身需求的系统。
论文地址:https://arxiv.org/pdf/2509.02473
代码地址:https://github.com/fdabench/FDAbench
原文链接
本文链接:https://kx.umi6.com/article/25038.html
转载请注明文章出处
相关推荐
换一换
Data Agent如何帮助企业打造懂你的“电子牛马”?|数势xSelectDB
2025-07-22 13:33:44
Data Agent,是个伪命题?
2025-07-24 19:15:19
Data Agent如何帮助企业打造懂你的“电子牛马”?|数势xSelectDB
2025-07-07 18:33:09
数巅完成数亿元pre-A轮融资,济和创投和赛富基金联合领投
2025-10-28 11:45:26
马斯克的xAI正加紧推动华尔街公司使用Grok聊天机器人
2026-05-14 04:17:16
李彦宏:未来全球日活智能体数将超过100亿
2026-05-13 10:29:21
科大讯飞、无锡数据集团等成立信息科技公司
2026-05-13 15:43:43
英伟达股价连续5个交易日上涨 总市值达到5.42万亿美元
2026-05-12 22:36:58
美股IPO在即 美众议院监督委员会对OpenAI首席执行官展开调查
2026-05-12 12:10:23
辽宁将大力培育人工智能OPC 到2028年培育OPC企业300家
2026-05-12 20:31:27
有爆料称特斯拉AI6芯片或转移至英特尔
2026-05-12 18:27:08
黄仁勋临时更改行程 将随美国总统访华
2026-05-13 12:35:45
OpenClaw低调更新重磅版本,龙虾长手长脚了
2026-05-12 12:05:03
695 文章
562807 浏览
24小时热文
更多
-
2026-05-14 04:18:21 -
2026-05-14 04:17:16 -
2026-05-14 00:07:53