标题:跨平台多模态智能体基准测试推出,最高得分35.26
随着生成式人工智能的快速发展,评估其性能成为一个重要挑战。近期,CAMEL AI、KAUST、CMU、斯坦福、清华等高校和机构的研究人员联合推出了跨平台多模态智能体基准测试CRAB,旨在全面评估AI在多智能体系统、多模态能力和跨平台操作等方面的性能。
CRAB的推出解决了评估障碍,为研究者提供了有效评估AI系统改进影响的工具。多模态能力、多智能体系统以及跨平台操作是AI实现真实世界复杂任务的关键能力。多智能体系统能够更好地服务于人类,解决更为复杂的任务,而跨平台操作则意味着AI能在不同操作系统间无缝协作。
CRAB采用图评估器这一创新方法,区别于传统基于目标或轨迹的评估方式,它通过检查完成任务的中间过程,将任务分解为多个子目标,每个子目标都有对应的判断函数来验证其完整性。图评估器监控任务状态,提供细粒度指标,适应多种解决方案。
CRAB基准测试包含100个真实世界任务,涉及各种常见问题和应用程序,如日历、电子邮件、地图、网络浏览器和终端操作。测试结果表明,在这个高要求的测试中,最强大的模型得分仅为35.26分(CR指的是完成率),显示出AI系统在真实场景中的复杂任务执行能力还有待提升。
通过CRAB框架,研究人员开发了支持Android和Ubuntu环境的基准测试CRab Benchmark-v0。测试中包含不同难度级别的任务,旨在推动AI系统向更贴近现实能力的进化。
总之,CRAB为多模态智能体评估提供了全面的交互式任务评估框架,通过跨平台操作和图评估器等创新手段,更准确地反映AI系统的实际表现。随着未来AI技术的发展,我们有理由期待AI系统能够进一步逼近现实世界的复杂任务执行能力。
原文链接
本文链接:https://kx.umi6.com/article/4654.html
转载请注明文章出处
相关推荐
.png)
换一换
Swarm 框架登场:OpenAI 第 3 阶段“敲门砖”,让专业的事交给专业的 AI 智能体做
2024-10-12 16:37:56
跨平台多模态智能体基准测试来了,但全班第一只考了35.26分
2024-08-06 21:15:32
5 个人三小时复刻开源版 Manus,邀请码也不需要
2025-03-07 15:59:57
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程
2025-06-16 15:09:20
计划Q3上线多智能体系统基座 AI智能体概念股20CM涨停 本周机构密集调研相关上市公司
2025-07-27 23:03:33
围绕多智能体黑箱非凸优化共识难题,华南理工大学团队发表系列研究
2025-04-17 14:37:03
腾讯混元游戏 2.0 发布:图片秒变动画 / CG,全面开放使用
2025-09-05 17:21:54
国内首个AI计算开放架构发布
2025-09-06 14:35:37
AI如何让获客成本直降80%,利润翻三倍?
2025-09-05 14:21:15
摩尔线程及中介机构回复首轮审核问询函
2025-09-05 20:24:47
GPT-4o 见AV 女优的次数比“您好”还多2.6倍,AI 正在被中文互联网疯狂污染
2025-09-06 12:37:21
商汤大装置与华为昇腾 384 超节点全面适配,多项创新提升训练效率
2025-09-06 14:35:21
蚂蚁国际推出 AI 智能体支付解决方案,可识别用户支付意图、全流程追溯询证
2025-09-05 15:20:28
514 文章
182466 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24