综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
微软于9月14日发布了Windows Agent Arena基准框架,旨在评估生成式AI代理在运行主流Windows应用时的性能。该框架覆盖了包括Microsoft Edge、谷歌Chrome、Visual Studio Code、预装Windows应用以及VLC等在内的多个常用软件。通过采用OSWorld框架,微软构建了涵盖150多项任务的基准测试,这些任务考验了代理在规划、屏幕理解及工具使用等方面的能力。此外,微软研究院开发的多模态代理Navi也在测试中进行了试验,结果显示其平均任务成功率仅为19.5%,远低于人类74.5%的表现。这一成果揭示了AI代理在处理Windows应用时仍存在显著差距。
原文链接
加载更多
暂无内容