1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

无需海量标注数据,智能体也能精准定位目标元素了!浙大等机构的研究团队提出了一种名为GUI-RCPO的自我监督强化学习方法,使模型能够在无标签数据上自主提升图形界面定位(GUI grounding)能力。

什么是GUI grounding?为何重要?
近年来,基于视觉-语言模型的GUI智能体发展迅速,只需一句自然语言指令,它们便能像人类一样操作界面。其核心能力之一是GUI grounding,即根据指令精确定位界面中的可操作元素。然而,训练这种能力通常需要数百万高质量标注数据,耗时且昂贵。

GUI-RCPO如何解决这一难题?
研究团队创新性地将Test-time Reinforcement Learning应用于GUI grounding任务,通过模型采样间的区域一致性引导模型进行自我优化。

具体而言:
1. GUI-RC:求同存异的空间投票
模型对同一指令多次预测时,尽管每次结果略有不同,但会存在一定的空间重叠。这种“区域一致性”隐含了置信度信号。研究团队设计了GUI-RC方法,通过构建投票网格记录每次采样的预测区域,最终提取出票数最高且面积最大的共识区域作为定位结果。

  1. GUI-RCPO:自监督奖励机制
    研究团队进一步提出GUI-RCPO,将区域一致性转化为自监督奖励信号,指导模型优化策略。通过赋予高一致性区域更高奖励,模型无需标注数据即可实现性能提升。

实验与效果
实验表明,GUI-RC和GUI-RCPO在多个基准测试中均显著提升了模型的定位能力,尤其是GUI-RCPO表现出更强的泛化能力和稳定性。例如,在专业场景的ScreenSpot-Pro基准上,即使仅用通用场景数据训练,模型仍取得显著进步。

案例分析
- 误导性幻觉:在电商界面中,用户要求查找“低于50美元的鞋子”,传统方法可能因语义混淆定位到“低于25美元的上衣”。GUI-RC通过投票提取共识区域,成功纠正错误。
- 偏差性幻觉:在电子平台界面中,用户指令为“联系销售”,传统方法可能框选整个信息卡片,而GUI-RC能精准定位按钮。

小结
GUI-RCPO通过区域一致性和自监督奖励实现了无标签数据上的自我提升,展示了test-time training在GUI智能体领域的巨大潜力,为构建高效数据利用的智能体提供了新方向。

论文链接:https://arxiv.org/abs/2508.05615
项目主页:https://zju-real.github.io/gui-rcpo/
代码仓库:https://github.com/ZJU-REAL/GUI-RCPO

原文链接
本文链接:https://kx.umi6.com/article/24751.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
2025-09-05 13:20:04
腾讯混元游戏 2.0 发布:图片秒变动画 / CG,全面开放使用
2025-09-05 17:21:54
港股机器人概念走强 行业商业化加速引发资本加注
2025-09-05 15:23:54
AI如何让中国互联网重塑增长?
2025-09-04 15:02:20
AI 的下一个战场:小模型崛起
2025-09-05 21:26:34
马斯克,有望成万亿美元巨富
2025-09-05 22:27:21
实测美团 LongCat:快到极致,但是别说追平 DeepSeek
2025-09-05 15:22:48
阿里通义千问发布迄今最大模型——Qwen3-Max-Preview
2025-09-06 00:27:49
手机与 PC 的最后边界,终于被三折叠打破
2025-09-04 19:06:54
当「谢谢」成为数字时代的隐形杀手:一场关于AI能源消耗的隐秘战争
2025-09-04 13:00:43
OpenAI 明年杀入招聘市场,将帮助具备 AI 技能的人才找到工作
2025-09-05 16:21:28
巨头抢滩AIGC,美团、百度新AI实测来了
2025-09-05 09:14:51
博通 FY2025Q3 营收同比增长 22%,拿下新客户 AI 芯片大单
2025-09-05 10:17:50
24小时热文
更多
扫一扫体验小程序