2024-09-16 02:18:37
微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能
阅读:202
微软于9月14日发布了Windows Agent Arena基准框架,旨在评估生成式AI代理在运行主流Windows应用时的性能。该框架覆盖了包括Microsoft Edge、谷歌Chrome、Visual Studio Code、预装Windows应用以及VLC等在内的多个常用软件。通过采用OSWorld框架,微软构建了涵盖150多项任务的基准测试,这些任务考验了代理在规划、屏幕理解及工具使用等方面的能力。此外,微软研究院开发的多模态代理Navi也在测试中进行了试验,结果显示其平均任务成功率仅为19.5%,远低于人类74.5%的表现。这一成果揭示了AI代理在处理Windows应用时仍存在显著差距。
原文链接
本文链接:https://kx.umi6.com/article/6381.html
转载请注明文章出处
相关推荐
换一换
微软CEO:与OpenAI的关系正在调整,但合作依然稳固
2025-06-06 08:24:52
微软开启网页浏览新路径:将Copilot深度嵌入Edge浏览器
2025-07-29 15:35:02
微软宣布与AMD合作开发下一代Xbox
2025-06-20 15:02:21
GitHub首席执行官宣布辞职创业
2025-08-12 15:22:54
微软宣布免费为美国政府提供 Microsoft 365 Copilot 服务,首年就能为其节省超 30 亿美元
2025-09-02 23:39:07
突发!微软与OpenAI同日开火:语音之战+通用大模型,AI霸权决战打响
2025-08-30 11:49:23
微软与美国政府就免费软件服务达成新协议
2025-09-02 22:41:51
微软首席科学家警告:特朗普政府提议禁止各州监管人工智能将阻碍技术发展
2025-06-23 15:24:49
给 AI“补补课”:微软砸资源抢救欧洲小语种
2025-07-22 17:35:42
“蛋糕”被抢!微软百亿美元投资OpenAI 竟然投出一个竞争对手?
2025-06-26 11:57:42
微软 Copilot 新增音频表达式功能,莎士比亚腔、体育解说都能整
2025-09-11 23:03:58
浮出水面!微软下一代Maia 2芯片或交由英特尔代工
2025-10-20 16:10:19
微软将对AI模型的“安全性”进行排名
2025-06-09 14:28:33
543 文章
262757 浏览
24小时热文
更多
-
2025-10-29 04:28:00 -
2025-10-29 03:24:46 -
2025-10-29 02:22:31