让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26
现有生成式离线强化学习方法在处理复杂连续任务时,常因过于关注局部合理性而忽视全局规划,导致生成的轨迹“局部合理但全局偏航”。为解决这一问题,厦门大学与香港科技大学提出了一种名为 MAGE(Multi-scale Autoregressive Generation)的新算法。
MAGE 的核心思想是“自顶向下、由粗到细”,类似于画素描时先勾勒整体轮廓再细化细节。它通过多尺度生成架构,先建模宏观规划,再逐步细化微观动作,从而避免了传统方法的全局规划缺陷。
研究团队设计了一个“迷宫寻宝”实验来验证 MAGE 的优势。实验中,智能体需从起点出发,依次拾取银币和金币后抵达终点。结果显示,现有模型如 Decision Transformer 和 Decision Diffuser 等,分别因全局上下文缺失和局部生成偏差而表现不佳;Hierarchical Diffuser 则因分层结构僵化,导致生成轨迹物理违规。相比之下,MAGE 凭借其多尺度生成策略成功完成任务,展现了卓越的全局规划能力。
MAGE 包含两大核心模块:MTAE 多尺度轨迹自编码器 和 多尺度条件引导自回归生成。前者将长序列轨迹转化为多尺度离散 Token,粗尺度负责全局结构,细尺度刻画局部动态;后者通过 Transformer 生成这些 Token,并以目标回报和初始状态为约束条件,确保每一步都朝向最终目标。此外,MAGE 还引入轻量级适配器和条件引导损失函数,保证生成轨迹的精确性和连贯性。
实验表明,MAGE 在 Adroit 机械臂、Franka Kitchen 组合任务和迷宫导航等 5 个离线强化学习基准测试中全面超越 15 种基线算法,尤其在高维连续控制任务中表现突出。同时,MAGE 的推理速度极快,比 Hierarchical Diffuser 快 50 倍,比 Decision Diffuser 快 80 倍,满足真实机器人控制的实时运行需求。
MAGE 成功结合多尺度建模与条件引导,生成连贯且可控的高回报轨迹。未来,当机器人能够自主制定全局计划并流畅执行时,具身智能的下一个奇点或将到来。
论文链接: https://arxiv.org/abs/2602.23770
开源代码: https://github.com/xmu-rl-3dv/MAGE
实验室主页: https://asc.xmu.edu.cn/
作者介绍:
本文第一作者为厦门大学空间感知与计算实验室(ASC Lab)硕士生林晨兴和高鑫辉,通讯作者为沈思淇副教授,团队长期致力于强化学习与智能体系统研究。
-
2026-04-06 15:58:46 -
2026-04-06 14:57:30 -
2026-04-06 14:56:21