跨平台多模态智能体基准测试来了，但全班第一只考了35.26分

2024-08-06 21:15:32

灵感Phoenix

发布在

科普

阅读：461

标题：跨平台多模态智能体基准测试推出，最高得分35.26

随着生成式人工智能的快速发展，评估其性能成为一个重要挑战。近期，CAMEL AI、KAUST、CMU、斯坦福、清华等高校和机构的研究人员联合推出了跨平台多模态智能体基准测试CRAB，旨在全面评估AI在多智能体系统、多模态能力和跨平台操作等方面的性能。

CRAB的推出解决了评估障碍，为研究者提供了有效评估AI系统改进影响的工具。多模态能力、多智能体系统以及跨平台操作是AI实现真实世界复杂任务的关键能力。多智能体系统能够更好地服务于人类，解决更为复杂的任务，而跨平台操作则意味着AI能在不同操作系统间无缝协作。

CRAB采用图评估器这一创新方法，区别于传统基于目标或轨迹的评估方式，它通过检查完成任务的中间过程，将任务分解为多个子目标，每个子目标都有对应的判断函数来验证其完整性。图评估器监控任务状态，提供细粒度指标，适应多种解决方案。

CRAB基准测试包含100个真实世界任务，涉及各种常见问题和应用程序，如日历、电子邮件、地图、网络浏览器和终端操作。测试结果表明，在这个高要求的测试中，最强大的模型得分仅为35.26分（CR指的是完成率），显示出AI系统在真实场景中的复杂任务执行能力还有待提升。

通过CRAB框架，研究人员开发了支持Android和Ubuntu环境的基准测试CRab Benchmark-v0。测试中包含不同难度级别的任务，旨在推动AI系统向更贴近现实能力的进化。

总之，CRAB为多模态智能体评估提供了全面的交互式任务评估框架，通过跨平台操作和图评估器等创新手段，更准确地反映AI系统的实际表现。随着未来AI技术的发展，我们有理由期待AI系统能够进一步逼近现实世界的复杂任务执行能力。

原文链接

本文链接：https://kx.umi6.com/article/4654.html

转载请注明文章出处

CRAB

多智能体系统

分享至

打开微信扫一扫

内容投诉

生成图片

灵感Phoenix

702 文章

497116 浏览

24小时热文