1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

现有Mobile/APP Agent多依赖动作级奖励(如SFT或RL),仅能预测单一最佳动作,难以适应动态移动环境。例如指令“打开飞猪,进入酒店套餐,找到VIP并关注主播”,Qwen2.5-VL-3B在第二步便失败。

淘天集团未来生活实验室与点淘算法团队提出Mobile-R1框架,引入任务级奖励结合多回合学习和轨迹纠错,显著提升Agent的适应性。团队设计三阶段训练流程:格式微调、动作级训练和任务级训练,并构建高质量中文轨迹数据集(4,635条轨迹,24,521单步数据),验证方法有效性。

轨迹数据集
团队选择28个中国移动应用,通过人工设计与自动生成任务指令,使用Qwen2.5-VL-3B执行收集轨迹,并标注逻辑思考、清晰动作和准确调用三个维度,确保数据质量。

训练流程
1. Stage1:格式微调
使用监督微调(SFT)调整模型输出格式,使其符合逻辑思考、动作描述和工具调用的标准结构。
2. Stage2:动作级在线训练
引入群体相对策略优化(GRPO),通过动作级奖励评估每步正确性,包括可验证动作奖励和格式奖励。
3. Stage3:任务级在线训练
定义为马尔可夫决策过程,采用任务级奖励(轨迹级奖励+格式奖励)增强泛化能力,使用GPT-4o评估轨迹一致性。

实验结果
Mobile-R1在自定义benchmark中表现最佳,任务成功率达49.40%,比最优基线高出近20点。Stage 3训练进一步提升模型性能,奖励曲线显示学习过程有效但存在中期波动。此外,Mobile-R1在未见应用上表现出色,泛化能力强于其他模型。

总结来看,Mobile-R1通过任务级奖励和三阶段训练克服了传统方法局限,在所有指标上超越基准模型。团队计划开源相关资源以推动研究。

链接
论文:https://arxiv.org/abs/2506.20332
项目主页:https://mobile-r1.github.io/Mobile-R1/
训练框架:https://github.com/alibaba/ROLL/
开源数据:https://huggingface.co/datasets/PG23/Mobile-R1

原文链接
本文链接:https://kx.umi6.com/article/22062.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力
2025-05-14 15:16:49
稚晖君机器人“葡萄缝针”神技再现江湖 这次是人形的
2025-03-11 23:55:21
清华 + 北大两部 DeepSeek 原版宝典新出炉!(附九部全集下载)
2025-02-28 21:28:54
2025上半年,AI Agent领域有什么变化和机会?
2025-07-11 08:33:06
无需外部数据!AI自问自答实现推理能力进化
2025-08-08 16:13:47
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
小米最新大模型成果!罗福莉现身了
2025-10-17 16:21:28
未来的科技历史,将如何发展?
2025-03-07 10:03:26
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
2025-05-17 13:07:29
Meta 推出强化学习新框架 SWEET-RL,让 AI 更懂人类意图
2025-03-24 11:54:11
非技术人10分钟读懂Deepseek R1
2025-02-14 18:44:39
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
姚班学霸、OpenAI姚顺雨:大模型下半场是产品的游戏
2025-04-17 17:47:23
24小时热文
更多
扫一扫体验小程序