1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:你的专属“钢铁侠”助手OSAgents来了!浙大等10个机构全新综述

OS Agents团队 投稿 量子位 | 公众号 QbitAI

电影《钢铁侠》中,托尼·斯塔克的助手贾维斯(J.A.R.V.I.S.)能帮他控制各种系统并自动完成任务,曾让无数观众羡慕不已。

现在,这样的超级智能助手,终于变成现实了!

随着多模态大语言模型的爆发式进化,OS Agents横空出世,它们能无缝操控电脑和手机,自动搞定繁琐任务。科技巨头们纷纷推出新产品,如Anthropic的Computer Use、苹果的Apple Intelligence、智谱AI的AutoGLM和Google DeepMind的Project Mariner,都指向同一目标:打造真正的操作系统智能助手。

OS Agents已不仅仅是“助手”,它们正在改写“人机交互”的规则。浙江大学联合OPPO、零一万物等十个机构梳理了综述文章《OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use》,不仅解读了OS Agents的技术构造,还盘点了评估方法和未来挑战。

科技行业的下一个新风口,会是OS Agents吗?

OS Agents有巨大潜力改善全球数十亿用户生活。想象一个世界:在线购物、预订差旅等日常活动都可以由这些智能体无缝完成,大幅提升效率和生产力。Siri、Cortana和Google Assistant等AI助手已展示潜力,但由于模型能力有限,只能完成有限任务。幸运的是,多模态大语言模型的不断发展,如Gemini、GPT、Grok、Yi和Claude系列模型,为OS Agents带来新可能。

(M)LLMs展现令人瞩目的能力,使OS Agents更好地理解复杂任务并在计算设备上执行。学术界和业界都在探索构建基于(M)LLM的OS Agents的方法。例如,OS-Atlas提出一种GUI基础模型,通过跨平台综合GUI操作数据,改进模型对GUI的操作能力。OS-Copilot则是一种OS Agents框架,使智能体在少监督情况下实现广泛任务自动化,并展示其泛化能力和自我改进能力。

本文全面综述了OS Agents。首先阐明OS Agents基础,探讨其关键要素,包括环境、观察空间和动作空间,并概述理解、规划和执行操作等核心能力。接着,审视了构建OS Agents的方法,重点关注领域特定的基础模型和智能体框架的开发。随后,文章详细回顾了评估协议和基准测试,展示了OS Agents在多种任务中的评估方式。最后,讨论了当前的挑战并指出未来研究的潜在方向,包括安全与隐私、个性化与自我进化。

团队还维护了一个开源的GitHub仓库,包含250+关于OS Agents的论文及其他相关资源,并持续更新中。

原文链接
本文链接:https://kx.umi6.com/article/11149.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
面壁发布首个纯端侧智能助手,构建汽车超性能端侧大脑
2025-03-30 15:37:08
AI Bot到底是真助手,还是又一个流量收割伎俩?
2025-06-10 08:40:12
一文读懂:什么是AI Agent?
2025-03-14 22:30:46
24小时热文
更多
扫一扫体验小程序