2024-09-16 02:18:37
微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能
阅读:202
微软于9月14日发布了Windows Agent Arena基准框架,旨在评估生成式AI代理在运行主流Windows应用时的性能。该框架覆盖了包括Microsoft Edge、谷歌Chrome、Visual Studio Code、预装Windows应用以及VLC等在内的多个常用软件。通过采用OSWorld框架,微软构建了涵盖150多项任务的基准测试,这些任务考验了代理在规划、屏幕理解及工具使用等方面的能力。此外,微软研究院开发的多模态代理Navi也在测试中进行了试验,结果显示其平均任务成功率仅为19.5%,远低于人类74.5%的表现。这一成果揭示了AI代理在处理Windows应用时仍存在显著差距。
原文链接
本文链接:https://kx.umi6.com/article/6381.html
转载请注明文章出处
相关推荐
换一换
微软否认下调 AI 销售指标,增长目标≠销售配额
2025-12-05 10:18:06
微软扩大AI算力版图,前矿商IREN获近百亿订单股价暴涨
2025-11-03 21:42:41
微软宣布组建超级智能团队,自研 AI 模型摆脱对 OpenAI 的依赖
2025-11-06 23:18:30
微软回应Win11系统AI化争议:注意到大家的不满 将改善质量
2025-11-16 21:52:44
微软为 Copilot 添加动画形象,提升 AI 助手交互亲和力
2025-10-01 09:40:13
微软与沙特签署主权云服务相关谅解备忘录
2025-11-20 13:27:40
减少对英伟达、AMD 依赖,微软未来 AI 数据中心计划主要使用自研芯片
2025-10-02 12:12:41
微软CEO爆料:盖茨最初认为对OpenAI的投资就像是烧钱
2025-10-29 18:04:05
微软宣布免费为美国政府提供 Microsoft 365 Copilot 服务,首年就能为其节省超 30 亿美元
2025-09-02 23:39:07
使用量一直难突破,微软出奇招邀请网红拍短视频为 Copilot“带货”
2025-11-11 12:05:31
微软与OpenAI签署新协议 后者将额外购买2500亿美元的Azure服务
2025-10-28 22:13:03
突发!微软与OpenAI同日开火:语音之战+通用大模型,AI霸权决战打响
2025-08-30 11:49:23
微软 CEO 纳德拉被曝亲自抓 AI 产品:每周开会、反复问进展、施压负责人
2025-12-23 00:08:48
641 文章
416468 浏览
24小时热文
更多
-
2026-01-23 19:11:03 -
2026-01-23 19:08:58 -
2026-01-23 18:11:40