告别海量标注！浙大团队提出GUI-RCPO，让GUI定位在无标签数据上自我进化

2025-09-05 13:20:04

超频思维站

发布在

科普

阅读：435

告别海量标注！浙大团队提出GUI-RCPO，让GUI定位在无标签数据上自我进化

无需海量标注数据，智能体也能精准定位目标元素了！浙大等机构的研究团队提出了一种名为GUI-RCPO的自我监督强化学习方法，使模型能够在无标签数据上自主提升图形界面定位（GUI grounding）能力。

什么是GUI grounding？为何重要？
近年来，基于视觉-语言模型的GUI智能体发展迅速，只需一句自然语言指令，它们便能像人类一样操作界面。其核心能力之一是GUI grounding，即根据指令精确定位界面中的可操作元素。然而，训练这种能力通常需要数百万高质量标注数据，耗时且昂贵。

GUI-RCPO如何解决这一难题？
研究团队创新性地将Test-time Reinforcement Learning应用于GUI grounding任务，通过模型采样间的区域一致性引导模型进行自我优化。

具体而言：
1. GUI-RC：求同存异的空间投票
模型对同一指令多次预测时，尽管每次结果略有不同，但会存在一定的空间重叠。这种“区域一致性”隐含了置信度信号。研究团队设计了GUI-RC方法，通过构建投票网格记录每次采样的预测区域，最终提取出票数最高且面积最大的共识区域作为定位结果。

GUI-RCPO：自监督奖励机制
研究团队进一步提出GUI-RCPO，将区域一致性转化为自监督奖励信号，指导模型优化策略。通过赋予高一致性区域更高奖励，模型无需标注数据即可实现性能提升。

实验与效果
实验表明，GUI-RC和GUI-RCPO在多个基准测试中均显著提升了模型的定位能力，尤其是GUI-RCPO表现出更强的泛化能力和稳定性。例如，在专业场景的ScreenSpot-Pro基准上，即使仅用通用场景数据训练，模型仍取得显著进步。

案例分析
- 误导性幻觉：在电商界面中，用户要求查找“低于50美元的鞋子”，传统方法可能因语义混淆定位到“低于25美元的上衣”。GUI-RC通过投票提取共识区域，成功纠正错误。
- 偏差性幻觉：在电子平台界面中，用户指令为“联系销售”，传统方法可能框选整个信息卡片，而GUI-RC能精准定位按钮。

小结
GUI-RCPO通过区域一致性和自监督奖励实现了无标签数据上的自我提升，展示了test-time training在GUI智能体领域的巨大潜力，为构建高效数据利用的智能体提供了新方向。

论文链接：https://arxiv.org/abs/2508.05615
项目主页：https://zju-real.github.io/gui-rcpo/
代码仓库：https://github.com/ZJU-REAL/GUI-RCPO

原文链接

本文链接：https://kx.umi6.com/article/24751.html

转载请注明文章出处

GUI-RCPO