一次示范就能终身掌握！让手机AI轻松搞定复杂操作丨浙大&vivo出品

2025-05-01 12:22:19

智能涌动

发布在

科普

阅读：869

一次示范就能终身掌握！让手机AI轻松搞定复杂操作丨浙大&vivo出品

想让手机AI像人类一样快速学习？浙大与vivo联手突破！全新LearnAct框架仅需一次示范，就能教会AI完成复杂操作。研究同步发布的LearnGUI基准，首次构建了面向移动端示范学习的评估体系，为AI智能体的实用化部署提供了关键技术支撑。

本文作者来自浙江大学和vivo AI lab。共同第一作者为浙江大学硕士生刘广义和赵鹏翔，主要研究方向为大语言模型驱动的GUI智能体技术。项目负责人是vivo AI lab算法专家刘亮，通信作者为浙江大学孟文超研究员。

随着大型语言模型的快速发展，手机GUI智能体逐渐引发关注。这些智能体通过观察手机屏幕感知状态并生成动作实现任务自动化。然而，其在实际部署中面临挑战，移动应用和用户界面的多样性导致长尾场景中表现不佳。

为解决此问题，浙大和vivo AI lab提出LearnAct多智能体框架和LearnGUI基准，通过「少样本示范学习」解决长尾问题。实验显示，单个示范能使Gemini-1.5-Pro的准确率从19.3%提升至51.7%，UI-TARS-7B-SFT的在线任务成功率从18.1%提升至32.8%。

LearnGUI是首个专为研究示范学习设计的基准，包含2,252个离线任务和101个在线任务，附带高质量人类示范。LearnAct框架由DemoParser、KnowSeeker和ActExecutor三部分组成，能够自动理解示范、生成知识并执行操作。

实验结果表明，LearnAct显著提升了模型性能，在离线评估中Gemini-1.5-Pro准确率提升198.9%，在线评估中Qwen2-VL-7B性能提升11.2%。这一研究为开发更具适应性、个性化的手机GUI智能体开辟了新方向，让手机操作更便捷高效。

论文地址：https://arxiv.org/abs/2504.13805
项目地址：https://lgy0404.github.io/LearnAct/
GitHub：https://github.com/lgy0404/LearnAct
HuggingFace：https://huggingface.co/datasets/lgy0404/LearnGUI

原文链接

本文链接：https://kx.umi6.com/article/18067.html

转载请注明文章出处

手机AI

示范学习

长尾问题

分享至

打开微信扫一扫

内容投诉

生成图片

智能涌动

676 文章

455682 浏览

24小时热文