1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

现有Mobile/APP Agent多依赖动作级奖励(如SFT或RL),仅能预测单一最佳动作,难以适应动态移动环境。例如指令“打开飞猪,进入酒店套餐,找到VIP并关注主播”,Qwen2.5-VL-3B在第二步便失败。

淘天集团未来生活实验室与点淘算法团队提出Mobile-R1框架,引入任务级奖励结合多回合学习和轨迹纠错,显著提升Agent的适应性。团队设计三阶段训练流程:格式微调、动作级训练和任务级训练,并构建高质量中文轨迹数据集(4,635条轨迹,24,521单步数据),验证方法有效性。

轨迹数据集
团队选择28个中国移动应用,通过人工设计与自动生成任务指令,使用Qwen2.5-VL-3B执行收集轨迹,并标注逻辑思考、清晰动作和准确调用三个维度,确保数据质量。

训练流程
1. Stage1:格式微调
使用监督微调(SFT)调整模型输出格式,使其符合逻辑思考、动作描述和工具调用的标准结构。
2. Stage2:动作级在线训练
引入群体相对策略优化(GRPO),通过动作级奖励评估每步正确性,包括可验证动作奖励和格式奖励。
3. Stage3:任务级在线训练
定义为马尔可夫决策过程,采用任务级奖励(轨迹级奖励+格式奖励)增强泛化能力,使用GPT-4o评估轨迹一致性。

实验结果
Mobile-R1在自定义benchmark中表现最佳,任务成功率达49.40%,比最优基线高出近20点。Stage 3训练进一步提升模型性能,奖励曲线显示学习过程有效但存在中期波动。此外,Mobile-R1在未见应用上表现出色,泛化能力强于其他模型。

总结来看,Mobile-R1通过任务级奖励和三阶段训练克服了传统方法局限,在所有指标上超越基准模型。团队计划开源相关资源以推动研究。

链接
论文:https://arxiv.org/abs/2506.20332
项目主页:https://mobile-r1.github.io/Mobile-R1/
训练框架:https://github.com/alibaba/ROLL/
开源数据:https://huggingface.co/datasets/PG23/Mobile-R1

原文链接
本文链接:https://kx.umi6.com/article/22062.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型
2025-05-27 14:51:28
强化学习之于 AI Agent,是灵魂、还是包袱?
2025-04-23 11:56:20
Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理
2025-09-18 08:48:39
图灵奖获奖者们, AI 界的「奥本海默」
2025-03-10 13:35:24
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
2025-07-24 16:09:58
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
2025-04-23 11:57:26
亚马逊开建AGI实验室,一号位也是华人
2025-09-22 09:54:37
混元OCR模型核心技术揭秘:统一框架、真端到端
2025-11-30 11:05:21
DeepSeek-R1 论文登上《自然》封面,通讯作者为梁文锋
2025-09-18 09:48:42
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
又一篇“苦涩的教训”,让AI觉得人间有不值,发现无穷尽
2025-04-22 08:10:09
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
2025-10-01 18:47:16
24小时热文
更多
扫一扫体验小程序