
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
现有Mobile/APP Agent多依赖动作级奖励(如SFT或RL),仅能预测单一最佳动作,难以适应动态移动环境。例如指令“打开飞猪,进入酒店套餐,找到VIP并关注主播”,Qwen2.5-VL-3B在第二步便失...
原文链接
加载更多

暂无内容