1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

无需海量标注数据,智能体也能精准定位目标元素了!浙大等机构的研究团队提出了一种名为GUI-RCPO的自我监督强化学习方法,使模型能够在无标签数据上自主提升图形界面定位(GUI grounding)能力。

什么是GUI grounding?为何重要?
近年来,基于视觉-语言模型的GUI智能体发展迅速,只需一句自然语言指令,它们便能像人类一样操作界面。其核心能力之一是GUI grounding,即根据指令精确定位界面中的可操作元素。然而,训练这种能力通常需要数百万高质量标注数据,耗时且昂贵。

GUI-RCPO如何解决这一难题?
研究团队创新性地将Test-time Reinforcement Learning应用于GUI grounding任务,通过模型采样间的区域一致性引导模型进行自我优化。

具体而言:
1. GUI-RC:求同存异的空间投票
模型对同一指令多次预测时,尽管每次结果略有不同,但会存在一定的空间重叠。这种“区域一致性”隐含了置信度信号。研究团队设计了GUI-RC方法,通过构建投票网格记录每次采样的预测区域,最终提取出票数最高且面积最大的共识区域作为定位结果。

  1. GUI-RCPO:自监督奖励机制
    研究团队进一步提出GUI-RCPO,将区域一致性转化为自监督奖励信号,指导模型优化策略。通过赋予高一致性区域更高奖励,模型无需标注数据即可实现性能提升。

实验与效果
实验表明,GUI-RC和GUI-RCPO在多个基准测试中均显著提升了模型的定位能力,尤其是GUI-RCPO表现出更强的泛化能力和稳定性。例如,在专业场景的ScreenSpot-Pro基准上,即使仅用通用场景数据训练,模型仍取得显著进步。

案例分析
- 误导性幻觉:在电商界面中,用户要求查找“低于50美元的鞋子”,传统方法可能因语义混淆定位到“低于25美元的上衣”。GUI-RC通过投票提取共识区域,成功纠正错误。
- 偏差性幻觉:在电子平台界面中,用户指令为“联系销售”,传统方法可能框选整个信息卡片,而GUI-RC能精准定位按钮。

小结
GUI-RCPO通过区域一致性和自监督奖励实现了无标签数据上的自我提升,展示了test-time training在GUI智能体领域的巨大潜力,为构建高效数据利用的智能体提供了新方向。

论文链接:https://arxiv.org/abs/2508.05615
项目主页:https://zju-real.github.io/gui-rcpo/
代码仓库:https://github.com/ZJU-REAL/GUI-RCPO

原文链接
本文链接:https://kx.umi6.com/article/24751.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
2025-09-05 13:20:04
周鸿祎:只有通过多智能体协作 才能让人工智能真正落地
2026-03-07 21:02:28
千问AI眼镜全渠道暂时售罄 9日10点再次开售
2026-03-09 07:16:29
苏州人工智能专项母基金等成立投资合伙企业 出资额5亿
2026-03-06 17:22:54
AI“养龙虾”走红 专家建议:部署OpenClaw关闭不必要的公网访问
2026-03-09 20:09:18
人力资源社会保障部部长:正研究措施发挥人工智能创造新岗位和赋能传统岗位作用
2026-03-07 11:27:41
88岁图灵奖得主,用Claude一小时破解30年数学悬案
2026-03-09 13:41:57
国家发展改革委主任:“十五五”末人工智能相关产业规模将增长到10万亿元以上
2026-03-06 16:15:23
首个物理AI数据基座平台“无垠”落户浙江,专治机器人数据荒,家庭工业商业场景全覆盖
2026-03-09 19:00:56
2026年,AI初创全球化的「变与不变」|沙龙招募
2026-03-06 19:27:03
深圳龙岗拟出台措施 支持OpenClaw&OPC发展
2026-03-08 17:26:26
全国人大代表张帆:建议研究出台加强工业数据集建设的财税支持政策
2026-03-06 19:29:19
英伟达投资的数据中心公司Nscale完成20亿美元融资 估值达146亿美元
2026-03-09 18:02:36
24小时热文
更多
扫一扫体验小程序