1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

无需海量标注数据,智能体也能精准定位目标元素了!浙大等机构的研究团队提出了一种名为GUI-RCPO的自我监督强化学习方法,使模型能够在无标签数据上自主提升图形界面定位(GUI grounding)能力。

什么是GUI grounding?为何重要?
近年来,基于视觉-语言模型的GUI智能体发展迅速,只需一句自然语言指令,它们便能像人类一样操作界面。其核心能力之一是GUI grounding,即根据指令精确定位界面中的可操作元素。然而,训练这种能力通常需要数百万高质量标注数据,耗时且昂贵。

GUI-RCPO如何解决这一难题?
研究团队创新性地将Test-time Reinforcement Learning应用于GUI grounding任务,通过模型采样间的区域一致性引导模型进行自我优化。

具体而言:
1. GUI-RC:求同存异的空间投票
模型对同一指令多次预测时,尽管每次结果略有不同,但会存在一定的空间重叠。这种“区域一致性”隐含了置信度信号。研究团队设计了GUI-RC方法,通过构建投票网格记录每次采样的预测区域,最终提取出票数最高且面积最大的共识区域作为定位结果。

  1. GUI-RCPO:自监督奖励机制
    研究团队进一步提出GUI-RCPO,将区域一致性转化为自监督奖励信号,指导模型优化策略。通过赋予高一致性区域更高奖励,模型无需标注数据即可实现性能提升。

实验与效果
实验表明,GUI-RC和GUI-RCPO在多个基准测试中均显著提升了模型的定位能力,尤其是GUI-RCPO表现出更强的泛化能力和稳定性。例如,在专业场景的ScreenSpot-Pro基准上,即使仅用通用场景数据训练,模型仍取得显著进步。

案例分析
- 误导性幻觉:在电商界面中,用户要求查找“低于50美元的鞋子”,传统方法可能因语义混淆定位到“低于25美元的上衣”。GUI-RC通过投票提取共识区域,成功纠正错误。
- 偏差性幻觉:在电子平台界面中,用户指令为“联系销售”,传统方法可能框选整个信息卡片,而GUI-RC能精准定位按钮。

小结
GUI-RCPO通过区域一致性和自监督奖励实现了无标签数据上的自我提升,展示了test-time training在GUI智能体领域的巨大潜力,为构建高效数据利用的智能体提供了新方向。

论文链接:https://arxiv.org/abs/2508.05615
项目主页:https://zju-real.github.io/gui-rcpo/
代码仓库:https://github.com/ZJU-REAL/GUI-RCPO

原文链接
本文链接:https://kx.umi6.com/article/24751.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
2025-09-05 13:20:04
联想入股原力聚合机器人科技公司
2025-12-08 11:27:54
Airwallex 空中云汇完成3.3 亿美元 G 轮融资,估值80 亿美元
2025-12-08 16:35:51
谷歌憋了十年的大招,让英伟达好日子到头了?
2025-12-08 12:25:18
编程界“奥斯卡”百度之星决赛揭晓,上千选手激烈角逐,山东16岁中学生王茂骅夺冠!
2025-12-08 16:34:59
英伟达黄仁勋称美国三年建一座超算太慢:中国一个周末就能建一座医院
2025-12-08 23:53:52
全球最大云厂商亚马逊 AWS,将“最牛马”的工作交给了 AI Agent
2025-12-07 18:39:34
继微信出现“被动下线”之后,阿里系 App 禁止豆包手机登录
2025-12-06 21:52:11
神秘模型 Grok 4.20 AI 炒股夺冠:只有它赚钱,吊打 Gemini 3 和 GPT-5.1
2025-12-07 16:36:04
国产滤波器企业新声半导体完成2.69亿元C轮融资
2025-12-08 18:39:38
苹果陷AI困局 iPhone用户出现倒戈潮
2025-12-07 16:37:13
Sensor Tower:2025 谷歌 Gemini 强势上位,三项核心 AI 增长指标反超 ChatGPT
2025-12-06 15:35:30
“人工智能教父” 辛顿:即便 AI 重塑编程行业,计算机科学学位仍具重要价值
2025-12-08 08:12:37
24小时热文
更多
扫一扫体验小程序