1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

无需海量标注数据,智能体也能精准定位目标元素了!浙大等机构的研究团队提出了一种名为GUI-RCPO的自我监督强化学习方法,使模型能够在无标签数据上自主提升图形界面定位(GUI grounding)能力。

什么是GUI grounding?为何重要?
近年来,基于视觉-语言模型的GUI智能体发展迅速,只需一句自然语言指令,它们便能像人类一样操作界面。其核心能力之一是GUI grounding,即根据指令精确定位界面中的可操作元素。然而,训练这种能力通常需要数百万高质量标注数据,耗时且昂贵。

GUI-RCPO如何解决这一难题?
研究团队创新性地将Test-time Reinforcement Learning应用于GUI grounding任务,通过模型采样间的区域一致性引导模型进行自我优化。

具体而言:
1. GUI-RC:求同存异的空间投票
模型对同一指令多次预测时,尽管每次结果略有不同,但会存在一定的空间重叠。这种“区域一致性”隐含了置信度信号。研究团队设计了GUI-RC方法,通过构建投票网格记录每次采样的预测区域,最终提取出票数最高且面积最大的共识区域作为定位结果。

  1. GUI-RCPO:自监督奖励机制
    研究团队进一步提出GUI-RCPO,将区域一致性转化为自监督奖励信号,指导模型优化策略。通过赋予高一致性区域更高奖励,模型无需标注数据即可实现性能提升。

实验与效果
实验表明,GUI-RC和GUI-RCPO在多个基准测试中均显著提升了模型的定位能力,尤其是GUI-RCPO表现出更强的泛化能力和稳定性。例如,在专业场景的ScreenSpot-Pro基准上,即使仅用通用场景数据训练,模型仍取得显著进步。

案例分析
- 误导性幻觉:在电商界面中,用户要求查找“低于50美元的鞋子”,传统方法可能因语义混淆定位到“低于25美元的上衣”。GUI-RC通过投票提取共识区域,成功纠正错误。
- 偏差性幻觉:在电子平台界面中,用户指令为“联系销售”,传统方法可能框选整个信息卡片,而GUI-RC能精准定位按钮。

小结
GUI-RCPO通过区域一致性和自监督奖励实现了无标签数据上的自我提升,展示了test-time training在GUI智能体领域的巨大潜力,为构建高效数据利用的智能体提供了新方向。

论文链接:https://arxiv.org/abs/2508.05615
项目主页:https://zju-real.github.io/gui-rcpo/
代码仓库:https://github.com/ZJU-REAL/GUI-RCPO

原文链接
本文链接:https://kx.umi6.com/article/24751.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
2025-09-05 13:20:04
“996”都算偷懒?硅谷AI精英化身“卷王”:每周狂干100小时!
2025-10-24 11:37:10
1599元起售!雷鸟把万元电视屏搬上了AI眼镜
2025-10-24 10:30:03
中国机器人这么玩儿,把老外都整不会了
2025-10-24 14:37:56
阿里回应“C计划”爆料 夸克上线对话助手挑战豆包 AI App下一步如何进化?
2025-10-23 14:06:33
AMD 确认 Radeon AI PRO R9700 32GB 显卡 10 月 27 日零售上市,1299 美元起
2025-10-24 08:28:19
上海新增2款已完成备案的生成式人工智能服务
2025-10-23 19:13:44
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
OpenAI:欧洲业务增长强劲 将继续加大投入
2025-10-24 00:18:56
中信证券:新一代AIDC供配电架构 高功率时代加速渗透
2025-10-24 08:30:42
存储芯片“超级周期”持续演绎:三星、SK海力士料将涨价30% 客户开启囤货模式
2025-10-23 15:11:46
英伟达宣布正与优步合作推进自动驾驶汽车研发
2025-10-24 09:34:47
干家务一小时挣1000元,具身智能时代人类新岗位
2025-10-24 12:34:34
24小时热文
更多
扫一扫体验小程序