任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
现有Mobile/APP Agent多依赖动作级奖励(如SFT或RL),仅能预测单一最佳动作,难以适应动态移动环境。例如指令“打开飞猪,进入酒店套餐,找到VIP并关注主播”,Qwen2.5-VL-3B在第二步便失败。
淘天集团未来生活实验室与点淘算法团队提出Mobile-R1框架,引入任务级奖励结合多回合学习和轨迹纠错,显著提升Agent的适应性。团队设计三阶段训练流程:格式微调、动作级训练和任务级训练,并构建高质量中文轨迹数据集(4,635条轨迹,24,521单步数据),验证方法有效性。
轨迹数据集
团队选择28个中国移动应用,通过人工设计与自动生成任务指令,使用Qwen2.5-VL-3B执行收集轨迹,并标注逻辑思考、清晰动作和准确调用三个维度,确保数据质量。
训练流程
1. Stage1:格式微调
使用监督微调(SFT)调整模型输出格式,使其符合逻辑思考、动作描述和工具调用的标准结构。
2. Stage2:动作级在线训练
引入群体相对策略优化(GRPO),通过动作级奖励评估每步正确性,包括可验证动作奖励和格式奖励。
3. Stage3:任务级在线训练
定义为马尔可夫决策过程,采用任务级奖励(轨迹级奖励+格式奖励)增强泛化能力,使用GPT-4o评估轨迹一致性。
实验结果
Mobile-R1在自定义benchmark中表现最佳,任务成功率达49.40%,比最优基线高出近20点。Stage 3训练进一步提升模型性能,奖励曲线显示学习过程有效但存在中期波动。此外,Mobile-R1在未见应用上表现出色,泛化能力强于其他模型。
总结来看,Mobile-R1通过任务级奖励和三阶段训练克服了传统方法局限,在所有指标上超越基准模型。团队计划开源相关资源以推动研究。
链接
论文:https://arxiv.org/abs/2506.20332
项目主页:https://mobile-r1.github.io/Mobile-R1/
训练框架:https://github.com/alibaba/ROLL/
开源数据:https://huggingface.co/datasets/PG23/Mobile-R1
.png)

-
2025-07-20 20:08:46
-
2025-07-20 20:07:36
-
2025-07-20 19:08:20