标题:教龙虾玩手机!打通GUI智能体全流程
正文:
ClawGUI团队投稿,量子位公众号发布。
没有人工干预,AI自己看屏幕、判断局面、规划路径并点击执行,一步步完成任务,令人解压。这不是游戏外挂,而是一个通用GUI智能体的「认真工作」,它具备与操作手机App、填写表单、浏览网页相同的视觉理解与操控能力。能玩消消乐,只是因为它学会了「看懂屏幕并操作」。那么问题来了:一个能玩消消乐的AI,离替你完成复杂手机操作还有多远?
当前GUI智能体研究面临挑战:训练、评测、部署三个环节割裂,难以形成闭环。ZJU-REAL团队推出开源框架ClawGUI,覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期,端到端解决这一问题。基于此框架,仅2B参数的小模型ClawGUI-2B在MobileWorld基准上取得17.1 SR,大幅超越基线11.1,接近8B模型水平。
ClawGUI-RL:稳步提升的训练方案
ClawGUI-RL是经过端到端验证的GUI Agent在线RL解决方案,分为三层:环境管理、奖励设计、策略优化。环境层面统一虚拟机和物理设备接口;奖励层面采用二元结果奖励+PRM逐步奖励,缓解长序列决策中奖励稀疏问题;策略优化支持多种主流算法,方便灵活切换。
虚拟环境与真机训练
ClawGUI-RL支持大量虚拟Android环境并行运行,并提供端到端真机训练流程,物理手机和云手机均可接入,为大规模云手机训练铺平道路。
ClawGUI-Eval:可信的评测标准
GUI模型评测常因细节差异导致复现困难。ClawGUI-Eval通过标准化Infer→Judge→Metric三阶段流水线,系统性解决了这一问题,在6大Benchmark上实现95.8%复现率。团队总结了关键复现经验,如坐标系统匹配、图文输入顺序、Prompt格式等,所有推理结果已开源。
OpenClaw-GUI:一句话控制手机
OpenClaw-GUI将GUI智能体带到真机落地,支持自然语言控制手机,集成跨平台支持(Android、鸿蒙、iOS)和多模型接入。用户可通过聊天平台发送指令,Agent自动完成任务或评测。
展望:CLI+GUI融合的未来
尽管CLI Agent火热,但GUI仍是数字世界主要入口。GUI的「可见性」提供了独特信任机制,且许多App无API,GUI与CLI更像互补关系。ClawGUI探索了训练、评测、部署打通后,GUI智能体的潜力及CLI+GUI协作的可能性。
项目已开源,欢迎访问:
https://github.com/ZJU-REAL/ClawGUI
https://zju-real.github.io/ClawGUI-Page/
-
2026-04-19 13:04:46 -
2026-04-19 13:03:40 -
2026-04-19 13:02:16