1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:教龙虾玩手机!打通GUI智能体全流程

正文:
ClawGUI团队投稿,量子位公众号发布。

没有人工干预,AI自己看屏幕、判断局面、规划路径并点击执行,一步步完成任务,令人解压。这不是游戏外挂,而是一个通用GUI智能体的「认真工作」,它具备与操作手机App、填写表单、浏览网页相同的视觉理解与操控能力。能玩消消乐,只是因为它学会了「看懂屏幕并操作」。那么问题来了:一个能玩消消乐的AI,离替你完成复杂手机操作还有多远?

当前GUI智能体研究面临挑战:训练、评测、部署三个环节割裂,难以形成闭环。ZJU-REAL团队推出开源框架ClawGUI,覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期,端到端解决这一问题。基于此框架,仅2B参数的小模型ClawGUI-2B在MobileWorld基准上取得17.1 SR,大幅超越基线11.1,接近8B模型水平。

ClawGUI-RL:稳步提升的训练方案

ClawGUI-RL是经过端到端验证的GUI Agent在线RL解决方案,分为三层:环境管理、奖励设计、策略优化。环境层面统一虚拟机和物理设备接口;奖励层面采用二元结果奖励+PRM逐步奖励,缓解长序列决策中奖励稀疏问题;策略优化支持多种主流算法,方便灵活切换。

虚拟环境与真机训练

ClawGUI-RL支持大量虚拟Android环境并行运行,并提供端到端真机训练流程,物理手机和云手机均可接入,为大规模云手机训练铺平道路。

ClawGUI-Eval:可信的评测标准

GUI模型评测常因细节差异导致复现困难。ClawGUI-Eval通过标准化Infer→Judge→Metric三阶段流水线,系统性解决了这一问题,在6大Benchmark上实现95.8%复现率。团队总结了关键复现经验,如坐标系统匹配、图文输入顺序、Prompt格式等,所有推理结果已开源。

OpenClaw-GUI:一句话控制手机

OpenClaw-GUI将GUI智能体带到真机落地,支持自然语言控制手机,集成跨平台支持(Android、鸿蒙、iOS)和多模型接入。用户可通过聊天平台发送指令,Agent自动完成任务或评测。

展望:CLI+GUI融合的未来

尽管CLI Agent火热,但GUI仍是数字世界主要入口。GUI的「可见性」提供了独特信任机制,且许多App无API,GUI与CLI更像互补关系。ClawGUI探索了训练、评测、部署打通后,GUI智能体的潜力及CLI+GUI协作的可能性。

项目已开源,欢迎访问:
https://github.com/ZJU-REAL/ClawGUI
https://zju-real.github.io/ClawGUI-Page/

原文链接
本文链接:https://kx.umi6.com/article/34935.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里ATH事业群发布世界模型产品Happy Oyster
2026-04-16 13:01:29
预告:广东省人工智能应用对接大会将于4月27日召开
2026-04-16 10:56:57
爱仕达亮相中国人形机器人生态大会 展示“智慧零售”“无人化工厂”等三大场景
2026-04-17 16:12:09
马斯克要求“光速”推进Terafab项目 已向供应商询问设备报价与交付时间
2026-04-16 20:19:04
字节跳动启动“豆包股”回购 回购价比授予价上浮约30%
2026-04-16 10:55:51
福建厦门:拟拓展对台“大三通”海运直航通道 推动恢复对台邮轮运输业务
2026-04-16 10:54:44
大学生毕业即失业!AI崛起冲击印度IT外包模式
2026-04-17 16:09:51
阶跃发布新一代语音生成模型StepAudio 2.5 TTS
2026-04-16 15:08:31
特斯拉股价涨5% AI5芯片成功流片
2026-04-15 23:28:16
人工智能编程初创公司Cursor洽谈融资20亿美元 估值超过500亿美元
2026-04-18 03:38:41
AI办公赛道竞争升温 Anthropic推出面向“设计小白”的AI创意工具
2026-04-18 02:35:31
中越联合声明:积极推进智能制造、数字经济、人工智能、量子技术、半导体、高铁等领域合作 探讨扩大本币结算范围
2026-04-17 10:56:50
广州海珠推出脑机接口产业10条政策 最高支持1000万元
2026-04-17 20:22:26
24小时热文
更多
扫一扫体验小程序