1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

现有生成式离线强化学习方法在处理复杂连续任务时,常因过于关注局部合理性而忽视全局规划,导致生成的轨迹“局部合理但全局偏航”。为解决这一问题,厦门大学与香港科技大学提出了一种名为 MAGE(Multi-scale Autoregressive Generation)的新算法。

MAGE 的核心思想是“自顶向下、由粗到细”,类似于画素描时先勾勒整体轮廓再细化细节。它通过多尺度生成架构,先建模宏观规划,再逐步细化微观动作,从而避免了传统方法的全局规划缺陷。

研究团队设计了一个“迷宫寻宝”实验来验证 MAGE 的优势。实验中,智能体需从起点出发,依次拾取银币和金币后抵达终点。结果显示,现有模型如 Decision Transformer 和 Decision Diffuser 等,分别因全局上下文缺失和局部生成偏差而表现不佳;Hierarchical Diffuser 则因分层结构僵化,导致生成轨迹物理违规。相比之下,MAGE 凭借其多尺度生成策略成功完成任务,展现了卓越的全局规划能力。

MAGE 包含两大核心模块:MTAE 多尺度轨迹自编码器多尺度条件引导自回归生成。前者将长序列轨迹转化为多尺度离散 Token,粗尺度负责全局结构,细尺度刻画局部动态;后者通过 Transformer 生成这些 Token,并以目标回报和初始状态为约束条件,确保每一步都朝向最终目标。此外,MAGE 还引入轻量级适配器和条件引导损失函数,保证生成轨迹的精确性和连贯性。

实验表明,MAGE 在 Adroit 机械臂、Franka Kitchen 组合任务和迷宫导航等 5 个离线强化学习基准测试中全面超越 15 种基线算法,尤其在高维连续控制任务中表现突出。同时,MAGE 的推理速度极快,比 Hierarchical Diffuser 快 50 倍,比 Decision Diffuser 快 80 倍,满足真实机器人控制的实时运行需求。

MAGE 成功结合多尺度建模与条件引导,生成连贯且可控的高回报轨迹。未来,当机器人能够自主制定全局计划并流畅执行时,具身智能的下一个奇点或将到来。

论文链接: https://arxiv.org/abs/2602.23770
开源代码: https://github.com/xmu-rl-3dv/MAGE
实验室主页: https://asc.xmu.edu.cn/

作者介绍:
本文第一作者为厦门大学空间感知与计算实验室(ASC Lab)硕士生林晨兴和高鑫辉,通讯作者为沈思淇副教授,团队长期致力于强化学习与智能体系统研究。

原文链接
本文链接:https://kx.umi6.com/article/34480.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026
2026-04-22 16:18:49
大模型看Coding,具身看Picking!原力灵机已抢先入局
2026-06-08 15:31:34
CCIG 2026 在广州圆满落幕:4200 余位专家学者共绘图像图形发展新图景
2026-06-04 12:06:45
阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一
2026-06-05 14:59:31
C盘空间多出来4GB:谷歌服软 Chrome本地AI大模型可禁用、删除了
2026-06-07 15:39:39
智启新程 生态同行:2026高通汽车技术与合作峰会展现AI汽车新图景
2026-06-05 19:20:05
活久见!奥特曼Dario哈萨比斯同仇敌忾:DNA得查了
2026-06-05 16:02:58
AI狂欢要散场了吗
2026-06-09 00:54:40
今年CVPR看点是广东:何恺明再获至高大奖,广工大打破大厂名校垄断
2026-06-06 15:50:06
英博数科亮相CCIG 2026,首次公开EBFlex私有化算力管理平台
2026-06-04 16:10:54
买车要多花6000元!车规存储芯片疯涨180%:全被AI抢走了
2026-06-08 19:42:13
有余凯不投的地平线离职创业员工吗?
2026-06-07 21:50:41
刚刚,Anthropic提交了招股书!
2026-06-03 12:19:08
24小时热文
更多
扫一扫体验小程序