1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:跨平台多模态智能体基准测试推出,最高得分35.26

随着生成式人工智能的快速发展,评估其性能成为一个重要挑战。近期,CAMEL AI、KAUST、CMU、斯坦福、清华等高校和机构的研究人员联合推出了跨平台多模态智能体基准测试CRAB,旨在全面评估AI在多智能体系统、多模态能力和跨平台操作等方面的性能。

CRAB的推出解决了评估障碍,为研究者提供了有效评估AI系统改进影响的工具。多模态能力、多智能体系统以及跨平台操作是AI实现真实世界复杂任务的关键能力。多智能体系统能够更好地服务于人类,解决更为复杂的任务,而跨平台操作则意味着AI能在不同操作系统间无缝协作。

CRAB采用图评估器这一创新方法,区别于传统基于目标或轨迹的评估方式,它通过检查完成任务的中间过程,将任务分解为多个子目标,每个子目标都有对应的判断函数来验证其完整性。图评估器监控任务状态,提供细粒度指标,适应多种解决方案。

CRAB基准测试包含100个真实世界任务,涉及各种常见问题和应用程序,如日历、电子邮件、地图、网络浏览器和终端操作。测试结果表明,在这个高要求的测试中,最强大的模型得分仅为35.26分(CR指的是完成率),显示出AI系统在真实场景中的复杂任务执行能力还有待提升。

通过CRAB框架,研究人员开发了支持Android和Ubuntu环境的基准测试CRab Benchmark-v0。测试中包含不同难度级别的任务,旨在推动AI系统向更贴近现实能力的进化。

总之,CRAB为多模态智能体评估提供了全面的交互式任务评估框架,通过跨平台操作和图评估器等创新手段,更准确地反映AI系统的实际表现。随着未来AI技术的发展,我们有理由期待AI系统能够进一步逼近现实世界的复杂任务执行能力。

原文链接
本文链接:https://kx.umi6.com/article/4654.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
5 个人三小时复刻开源版 Manus,邀请码也不需要
2025-03-07 15:59:57
跨平台多模态智能体基准测试来了,但全班第一只考了35.26分
2024-08-06 21:15:32
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程
2025-06-16 15:09:20
围绕多智能体黑箱非凸优化共识难题,华南理工大学团队发表系列研究
2025-04-17 14:37:03
计划Q3上线多智能体系统基座 AI智能体概念股20CM涨停 本周机构密集调研相关上市公司
2025-07-27 23:03:33
Swarm 框架登场:OpenAI 第 3 阶段“敲门砖”,让专业的事交给专业的 AI 智能体做
2024-10-12 16:37:56
强脑科技在成都设新公司 含AI相关业务
2025-10-23 14:07:29
Netflix 宣布全力投入 AI:“能帮人类把故事讲得更好”
2025-10-22 16:48:46
OpenAI也来了,巨头为何决战AI浏览器?
2025-10-23 10:04:31
超800名科技领袖联合呼吁:停止研发超级智能 可能导致人类灭绝
2025-10-23 00:54:02
一文讲透Agent的底层逻辑
2025-10-22 22:53:19
诺基亚CEO:目前仍处于AI超级周期的早期阶段,就像90年代的互联网
2025-10-23 20:15:12
OpenAI合作伙伴Crusoe在新一轮融资中估值达100亿美元
2025-10-24 03:21:23
24小时热文
更多
扫一扫体验小程序