让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

2026-04-06 13:52:56

未来笔触

发布在

科普

阅读：1180

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

现有生成式离线强化学习方法在处理复杂连续任务时，常因过于关注局部合理性而忽视全局规划，导致生成的轨迹“局部合理但全局偏航”。为解决这一问题，厦门大学与香港科技大学提出了一种名为 MAGE（Multi-scale Autoregressive Generation）的新算法。

MAGE 的核心思想是“自顶向下、由粗到细”，类似于画素描时先勾勒整体轮廓再细化细节。它通过多尺度生成架构，先建模宏观规划，再逐步细化微观动作，从而避免了传统方法的全局规划缺陷。

研究团队设计了一个“迷宫寻宝”实验来验证 MAGE 的优势。实验中，智能体需从起点出发，依次拾取银币和金币后抵达终点。结果显示，现有模型如 Decision Transformer 和 Decision Diffuser 等，分别因全局上下文缺失和局部生成偏差而表现不佳；Hierarchical Diffuser 则因分层结构僵化，导致生成轨迹物理违规。相比之下，MAGE 凭借其多尺度生成策略成功完成任务，展现了卓越的全局规划能力。

MAGE 包含两大核心模块：MTAE 多尺度轨迹自编码器 和 多尺度条件引导自回归生成。前者将长序列轨迹转化为多尺度离散 Token，粗尺度负责全局结构，细尺度刻画局部动态；后者通过 Transformer 生成这些 Token，并以目标回报和初始状态为约束条件，确保每一步都朝向最终目标。此外，MAGE 还引入轻量级适配器和条件引导损失函数，保证生成轨迹的精确性和连贯性。

实验表明，MAGE 在 Adroit 机械臂、Franka Kitchen 组合任务和迷宫导航等 5 个离线强化学习基准测试中全面超越 15 种基线算法，尤其在高维连续控制任务中表现突出。同时，MAGE 的推理速度极快，比 Hierarchical Diffuser 快 50 倍，比 Decision Diffuser 快 80 倍，满足真实机器人控制的实时运行需求。

MAGE 成功结合多尺度建模与条件引导，生成连贯且可控的高回报轨迹。未来，当机器人能够自主制定全局计划并流畅执行时，具身智能的下一个奇点或将到来。

论文链接： https://arxiv.org/abs/2602.23770
开源代码： https://github.com/xmu-rl-3dv/MAGE
实验室主页： https://asc.xmu.edu.cn/

作者介绍：
本文第一作者为厦门大学空间感知与计算实验室（ASC Lab）硕士生林晨兴和高鑫辉，通讯作者为沈思淇副教授，团队长期致力于强化学习与智能体系统研究。

原文链接

本文链接：https://kx.umi6.com/article/34480.html

转载请注明文章出处

MAGE算法