一次示范就能终身掌握!让手机AI轻松搞定复杂操作丨浙大&vivo出品
想让手机AI像人类一样快速学习?浙大与vivo联手突破!全新LearnAct框架仅需一次示范,就能教会AI完成复杂操作。研究同步发布的LearnGUI基准,首次构建了面向移动端示范学习的评估体系,为AI智能体的实用化部署提供了关键技术支撑。
本文作者来自浙江大学和vivo AI lab。共同第一作者为浙江大学硕士生刘广义和赵鹏翔,主要研究方向为大语言模型驱动的GUI智能体技术。项目负责人是vivo AI lab算法专家刘亮,通信作者为浙江大学孟文超研究员。
随着大型语言模型的快速发展,手机GUI智能体逐渐引发关注。这些智能体通过观察手机屏幕感知状态并生成动作实现任务自动化。然而,其在实际部署中面临挑战,移动应用和用户界面的多样性导致长尾场景中表现不佳。
为解决此问题,浙大和vivo AI lab提出LearnAct多智能体框架和LearnGUI基准,通过「少样本示范学习」解决长尾问题。实验显示,单个示范能使Gemini-1.5-Pro的准确率从19.3%提升至51.7%,UI-TARS-7B-SFT的在线任务成功率从18.1%提升至32.8%。
LearnGUI是首个专为研究示范学习设计的基准,包含2,252个离线任务和101个在线任务,附带高质量人类示范。LearnAct框架由DemoParser、KnowSeeker和ActExecutor三部分组成,能够自动理解示范、生成知识并执行操作。
实验结果表明,LearnAct显著提升了模型性能,在离线评估中Gemini-1.5-Pro准确率提升198.9%,在线评估中Qwen2-VL-7B性能提升11.2%。这一研究为开发更具适应性、个性化的手机GUI智能体开辟了新方向,让手机操作更便捷高效。
论文地址:https://arxiv.org/abs/2504.13805
项目地址:https://lgy0404.github.io/LearnAct/
GitHub:https://github.com/lgy0404/LearnAct
HuggingFace:https://huggingface.co/datasets/lgy0404/LearnGUI
-
2025-12-13 01:24:50 -
2025-12-13 01:22:44 -
2025-12-13 00:19:33