微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

2024-09-16 02:18:37

WisdomTrail

发布在

快讯

阅读：693

微软于9月14日发布了Windows Agent Arena基准框架，旨在评估生成式AI代理在运行主流Windows应用时的性能。该框架覆盖了包括Microsoft Edge、谷歌Chrome、Visual Studio Code、预装Windows应用以及VLC等在内的多个常用软件。通过采用OSWorld框架，微软构建了涵盖150多项任务的基准测试，这些任务考验了代理在规划、屏幕理解及工具使用等方面的能力。此外，微软研究院开发的多模态代理Navi也在测试中进行了试验，结果显示其平均任务成功率仅为19.5%，远低于人类74.5%的表现。这一成果揭示了AI代理在处理Windows应用时仍存在显著差距。

原文链接

本文链接：https://kx.umi6.com/article/6381.html

转载请注明文章出处

AI Agents