1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

无需海量标注数据,智能体也能精准定位目标元素了!浙大等机构的研究团队提出了一种名为GUI-RCPO的自我监督强化学习方法,使模型能够在无标签数据上自主提升图形界面定位(GUI grounding)能力。

什么是GUI grounding?为何重要?
近年来,基于视觉-语言模型的GUI智能体发展迅速,只需一句自然语言指令,它们便能像人类一样操作界面。其核心能力之一是GUI grounding,即根据指令精确定位界面中的可操作元素。然而,训练这种能力通常需要数百万高质量标注数据,耗时且昂贵。

GUI-RCPO如何解决这一难题?
研究团队创新性地将Test-time Reinforcement Learning应用于GUI grounding任务,通过模型采样间的区域一致性引导模型进行自我优化。

具体而言:
1. GUI-RC:求同存异的空间投票
模型对同一指令多次预测时,尽管每次结果略有不同,但会存在一定的空间重叠。这种“区域一致性”隐含了置信度信号。研究团队设计了GUI-RC方法,通过构建投票网格记录每次采样的预测区域,最终提取出票数最高且面积最大的共识区域作为定位结果。

  1. GUI-RCPO:自监督奖励机制
    研究团队进一步提出GUI-RCPO,将区域一致性转化为自监督奖励信号,指导模型优化策略。通过赋予高一致性区域更高奖励,模型无需标注数据即可实现性能提升。

实验与效果
实验表明,GUI-RC和GUI-RCPO在多个基准测试中均显著提升了模型的定位能力,尤其是GUI-RCPO表现出更强的泛化能力和稳定性。例如,在专业场景的ScreenSpot-Pro基准上,即使仅用通用场景数据训练,模型仍取得显著进步。

案例分析
- 误导性幻觉:在电商界面中,用户要求查找“低于50美元的鞋子”,传统方法可能因语义混淆定位到“低于25美元的上衣”。GUI-RC通过投票提取共识区域,成功纠正错误。
- 偏差性幻觉:在电子平台界面中,用户指令为“联系销售”,传统方法可能框选整个信息卡片,而GUI-RC能精准定位按钮。

小结
GUI-RCPO通过区域一致性和自监督奖励实现了无标签数据上的自我提升,展示了test-time training在GUI智能体领域的巨大潜力,为构建高效数据利用的智能体提供了新方向。

论文链接:https://arxiv.org/abs/2508.05615
项目主页:https://zju-real.github.io/gui-rcpo/
代码仓库:https://github.com/ZJU-REAL/GUI-RCPO

原文链接
本文链接:https://kx.umi6.com/article/24751.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
2025-09-05 13:20:04
vivo暂缓AI眼镜项目
2026-01-23 09:43:53
马斯克:年底将出现比人类更聪明的AI 能源是AI最大限制因素
2026-01-23 10:47:05
融捷股份等成立新公司 含多项AI业务
2026-01-22 15:00:25
超600家上市公司预告2025年业绩 新兴产业增势亮眼
2026-01-22 06:40:59
Mobileye势头强劲,2025财年全年营收同比增长15%
2026-01-23 11:47:43
凸显新型国际财经媒体优势 界面财联社旗下财跃星辰AI决策系统入选上海开源典型案例
2026-01-22 12:52:54
苏州“十五五”规划建议:培育壮大半导体与集成电路、智能网联新能源汽车、工业母机等新兴支柱产业
2026-01-21 20:30:12
成立两年半登顶全球AI创作社区,背后是中国团队在“卖情绪”??
2026-01-22 20:08:53
农业农村部:将持续推动人工智能等在农业领域应用
2026-01-22 11:51:14
马斯克下场抢人!xAI组建「人才狙击队」,极客版HR年薪168万
2026-01-22 12:51:47
国家知识产权局:将加快推动《集成电路布图设计保护条例》修改
2026-01-23 11:52:03
白宫加密与AI顾问 :美国传统银行与加密行业最终将融合为数字资产行业
2026-01-22 16:00:45
24小时热文
更多
扫一扫体验小程序