1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

一次示范就能终身掌握!让手机AI轻松搞定复杂操作丨浙大&vivo出品

想让手机AI像人类一样快速学习?浙大与vivo联手突破!全新LearnAct框架仅需一次示范,就能教会AI完成复杂操作。研究同步发布的LearnGUI基准,首次构建了面向移动端示范学习的评估体系,为AI智能体的实用化部署提供了关键技术支撑。

本文作者来自浙江大学和vivo AI lab。共同第一作者为浙江大学硕士生刘广义和赵鹏翔,主要研究方向为大语言模型驱动的GUI智能体技术。项目负责人是vivo AI lab算法专家刘亮,通信作者为浙江大学孟文超研究员。

随着大型语言模型的快速发展,手机GUI智能体逐渐引发关注。这些智能体通过观察手机屏幕感知状态并生成动作实现任务自动化。然而,其在实际部署中面临挑战,移动应用和用户界面的多样性导致长尾场景中表现不佳。

为解决此问题,浙大和vivo AI lab提出LearnAct多智能体框架和LearnGUI基准,通过「少样本示范学习」解决长尾问题。实验显示,单个示范能使Gemini-1.5-Pro的准确率从19.3%提升至51.7%,UI-TARS-7B-SFT的在线任务成功率从18.1%提升至32.8%。

LearnGUI是首个专为研究示范学习设计的基准,包含2,252个离线任务和101个在线任务,附带高质量人类示范。LearnAct框架由DemoParser、KnowSeeker和ActExecutor三部分组成,能够自动理解示范、生成知识并执行操作。

实验结果表明,LearnAct显著提升了模型性能,在离线评估中Gemini-1.5-Pro准确率提升198.9%,在线评估中Qwen2-VL-7B性能提升11.2%。这一研究为开发更具适应性、个性化的手机GUI智能体开辟了新方向,让手机操作更便捷高效。

论文地址:https://arxiv.org/abs/2504.13805
项目地址:https://lgy0404.github.io/LearnAct/
GitHub:https://github.com/lgy0404/LearnAct
HuggingFace:https://huggingface.co/datasets/lgy0404/LearnGUI

原文链接
本文链接:https://kx.umi6.com/article/18067.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
一次示范就能终身掌握!让手机AI轻松搞定复杂操作丨浙大&vivo出品
2025-05-01 12:22:19
13款手机AI比拼 小米拿下金牌!
2025-10-27 18:12:32
长亭科技完成5亿元融资,国家级人工智能基金落子
2026-01-30 13:43:36
Clawdbot 爆火以后,这条硬件赛道成了最大受益者
2026-01-30 13:33:11
可灵AI内测视频生成模型可灵3.0系列
2026-01-31 15:43:18
硅谷最新调研:2026年,AI Agent到底会走向哪?
2026-01-30 13:30:51
北京经济技术开发区:积极部署人工智能安全体系 重点突破深度伪造识别、生成内容合规检测等技术
2026-01-31 22:04:53
一文拆解万亿AI医疗商业逻辑
2026-01-30 13:44:45
媒体称中国已批准进口首批英伟达H200芯片 外交部回应
2026-01-29 16:29:40
纳米漫剧流水线公测上线,开启漫剧工业化生产时代
2026-01-29 19:35:57
消息称字节2025年底开启豆包手机助手正式版项目 新机预计2026年Q2中晚期发布
2026-01-29 14:24:06
全面押注AI人工智能 曝理想新设人形机器人和软件本体部门
2026-01-31 08:20:32
中国团队引领太空算力:首次太空在轨部署通用大模型
2026-01-30 13:45:56
24小时热文
更多
扫一扫体验小程序