2024-09-16 02:18:37
微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能
阅读:366
微软于9月14日发布了Windows Agent Arena基准框架,旨在评估生成式AI代理在运行主流Windows应用时的性能。该框架覆盖了包括Microsoft Edge、谷歌Chrome、Visual Studio Code、预装Windows应用以及VLC等在内的多个常用软件。通过采用OSWorld框架,微软构建了涵盖150多项任务的基准测试,这些任务考验了代理在规划、屏幕理解及工具使用等方面的能力。此外,微软研究院开发的多模态代理Navi也在测试中进行了试验,结果显示其平均任务成功率仅为19.5%,远低于人类74.5%的表现。这一成果揭示了AI代理在处理Windows应用时仍存在显著差距。
原文链接
本文链接:https://kx.umi6.com/article/6381.html
转载请注明文章出处
相关推荐
换一换
云业务助微软Q3业绩超预期 但创纪录资本支出成市场阴影
2025-10-30 08:32:56
还要玩家干什么!微软探索新方案:开发AI可代打Xbox游戏
2026-03-04 15:52:33
使用量一直难突破,微软出奇招邀请网红拍短视频为 Copilot“带货”
2025-11-11 12:05:31
微软发布全新文生图模型:成本骤降41%!
2026-04-15 16:08:06
微软 AI 帮你定制年终高情商话术:写总结、谈加薪、不得罪同事
2025-12-10 09:34:15
Nscale计划为微软在德克萨斯州建造大型AI数据中心
2025-10-15 18:44:36
消息称微软计划全面改革 GitHub,以抗衡 AI 编程工具竞品并布局 AI 智能体领域
2026-01-08 19:25:56
微软 Dragon Copilot 为护士减负:让其只管救人,写病历交给 AI
2025-12-02 11:05:25
270万人怒了!微软AI订阅被控诱骗用户:面临1.75亿美元天价退款
2025-11-07 18:04:13
微软下一代AI芯片或由英特尔代工
2025-10-20 13:06:13
微软将在阿联酋投资80亿美元,已获美方AI芯片出口许可
2025-11-03 21:41:43
微软与Lambda达成数十亿美元的人工智能基础设施协议
2025-11-04 01:50:36
Anthropic正在洽谈使用微软的AI芯片
2026-05-21 22:05:03
722 文章
616780 浏览
24小时热文
更多
-
2026-06-09 11:14:27 -
2026-06-09 11:12:33 -
2026-06-09 10:10:47