Windows Agent Arena 基准框架

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

微软于9月14日发布了Windows Agent Arena基准框架，旨在评估生成式AI代理在运行主流Windows应用时的性能。该框架覆盖了包括Microsoft Edge、谷歌Chrome、Visual Studio Code、预装Windows应用以及VLC等在内的多个常用软件。通过采用OSWorld框架，微软构建了涵盖150多项任务的基准测试，这些任务考验了代理在规划、屏幕理解及工具使用等方面的能力。此外，微软研究院开发的多模态代理Navi也在测试中进行了试验，结果显示其平均任务成功率仅为19.5%，远低于人类74.5%的表现。这一成果揭示了AI代理在处理Windows应用时仍存在显著差距。

原文链接