1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

一次示范就能终身掌握!让手机AI轻松搞定复杂操作丨浙大&vivo出品

想让手机AI像人类一样快速学习?浙大与vivo联手突破!全新LearnAct框架仅需一次示范,就能教会AI完成复杂操作。研究同步发布的LearnGUI基准,首次构建了面向移动端示范学习的评估体系,为AI智能体的实用化部署提供了关键技术支撑。

本文作者来自浙江大学和vivo AI lab。共同第一作者为浙江大学硕士生刘广义和赵鹏翔,主要研究方向为大语言模型驱动的GUI智能体技术。项目负责人是vivo AI lab算法专家刘亮,通信作者为浙江大学孟文超研究员。

随着大型语言模型的快速发展,手机GUI智能体逐渐引发关注。这些智能体通过观察手机屏幕感知状态并生成动作实现任务自动化。然而,其在实际部署中面临挑战,移动应用和用户界面的多样性导致长尾场景中表现不佳。

为解决此问题,浙大和vivo AI lab提出LearnAct多智能体框架和LearnGUI基准,通过「少样本示范学习」解决长尾问题。实验显示,单个示范能使Gemini-1.5-Pro的准确率从19.3%提升至51.7%,UI-TARS-7B-SFT的在线任务成功率从18.1%提升至32.8%。

LearnGUI是首个专为研究示范学习设计的基准,包含2,252个离线任务和101个在线任务,附带高质量人类示范。LearnAct框架由DemoParser、KnowSeeker和ActExecutor三部分组成,能够自动理解示范、生成知识并执行操作。

实验结果表明,LearnAct显著提升了模型性能,在离线评估中Gemini-1.5-Pro准确率提升198.9%,在线评估中Qwen2-VL-7B性能提升11.2%。这一研究为开发更具适应性、个性化的手机GUI智能体开辟了新方向,让手机操作更便捷高效。

论文地址:https://arxiv.org/abs/2504.13805
项目地址:https://lgy0404.github.io/LearnAct/
GitHub:https://github.com/lgy0404/LearnAct
HuggingFace:https://huggingface.co/datasets/lgy0404/LearnGUI

原文链接
本文链接:https://kx.umi6.com/article/18067.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
一次示范就能终身掌握!让手机AI轻松搞定复杂操作丨浙大&vivo出品
2025-05-01 12:22:19
13款手机AI比拼 小米拿下金牌!
2025-10-27 18:12:32
纽约州推出美国首批人工智能法案,要求广告商披露 AI 生成人物片段
2025-12-12 08:40:04
JEDEC 接近完成 SPHBM4 规范:I/O 引脚数量仅有标准 HBM4 内存的 1/4
2025-12-12 11:48:56
上海商汤科技开发公司增资至35亿 增幅75%
2025-12-11 16:04:34
IDC MarketScape:商汤科技位居中国AI咨询服务市场领导者类别
2025-12-11 18:05:18
中国机器人比赛应急救援,美国网友Reddit破防:我们还在给机器狗化妆拍段子
2025-12-12 16:58:16
软银寻求AI布局 正考察包括数据中心运营商Switch在内的潜在收购
2025-12-12 08:42:18
OpenAI 奥尔特曼:高看了谷歌 Gemini 3,明年 1 月结束“红色警报”
2025-12-12 08:38:54
特斯拉劲敌Rivian开发AI芯片 计划未来车型中取代英伟达产品
2025-12-12 09:44:00
商务部:加大AI、大数据、云计算等技术应用 推动二手商品流通线上线下深度融合
2025-12-11 17:03:09
中央经济工作会议:实施新一轮重点产业链高质量发展行动
2025-12-11 18:07:27
腾讯投资的3A大作定档!“游戏界奥斯卡”中国元素拉满
2025-12-12 20:07:55
24小时热文
更多
扫一扫体验小程序