1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

现有生成式离线强化学习方法在处理复杂连续任务时,常因过于关注局部合理性而忽视全局规划,导致生成的轨迹“局部合理但全局偏航”。为解决这一问题,厦门大学与香港科技大学提出了一种名为 MAGE(Multi-scale Autoregressive Generation)的新算法。

MAGE 的核心思想是“自顶向下、由粗到细”,类似于画素描时先勾勒整体轮廓再细化细节。它通过多尺度生成架构,先建模宏观规划,再逐步细化微观动作,从而避免了传统方法的全局规划缺陷。

研究团队设计了一个“迷宫寻宝”实验来验证 MAGE 的优势。实验中,智能体需从起点出发,依次拾取银币和金币后抵达终点。结果显示,现有模型如 Decision Transformer 和 Decision Diffuser 等,分别因全局上下文缺失和局部生成偏差而表现不佳;Hierarchical Diffuser 则因分层结构僵化,导致生成轨迹物理违规。相比之下,MAGE 凭借其多尺度生成策略成功完成任务,展现了卓越的全局规划能力。

MAGE 包含两大核心模块:MTAE 多尺度轨迹自编码器多尺度条件引导自回归生成。前者将长序列轨迹转化为多尺度离散 Token,粗尺度负责全局结构,细尺度刻画局部动态;后者通过 Transformer 生成这些 Token,并以目标回报和初始状态为约束条件,确保每一步都朝向最终目标。此外,MAGE 还引入轻量级适配器和条件引导损失函数,保证生成轨迹的精确性和连贯性。

实验表明,MAGE 在 Adroit 机械臂、Franka Kitchen 组合任务和迷宫导航等 5 个离线强化学习基准测试中全面超越 15 种基线算法,尤其在高维连续控制任务中表现突出。同时,MAGE 的推理速度极快,比 Hierarchical Diffuser 快 50 倍,比 Decision Diffuser 快 80 倍,满足真实机器人控制的实时运行需求。

MAGE 成功结合多尺度建模与条件引导,生成连贯且可控的高回报轨迹。未来,当机器人能够自主制定全局计划并流畅执行时,具身智能的下一个奇点或将到来。

论文链接: https://arxiv.org/abs/2602.23770
开源代码: https://github.com/xmu-rl-3dv/MAGE
实验室主页: https://asc.xmu.edu.cn/

作者介绍:
本文第一作者为厦门大学空间感知与计算实验室(ASC Lab)硕士生林晨兴和高鑫辉,通讯作者为沈思淇副教授,团队长期致力于强化学习与智能体系统研究。

原文链接
本文链接:https://kx.umi6.com/article/34480.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
具身Scaling Law押对了!独角兽新品1小时学会新任务,重复1800次成功率99%
2026-04-06 13:51:26
上市首日大涨111%!智谱MiniMax之后,德适交出大模型商业化最硬核答卷
2026-04-02 18:10:26
存储板块短期承压 价格上行趋势有望延续
2026-04-03 07:41:05
Sora向左,阿里向右:全能演技派模型登场千问APP
2026-04-03 21:19:11
美国大模型头部公司宣布正式封杀OpenClaw
2026-04-04 15:58:38
出行行业首个!哈啰MCP服务上线:AI直接替你叫车
2026-04-04 11:48:55
阶跃星辰变更为股份公司
2026-04-03 16:10:36
紫光股份成立智联科技公司 含多项AI业务
2026-04-03 12:22:51
OpenAI 上市前夕管理层大地震!COO转岗 两位高管休假
2026-04-04 17:01:37
Claude绝望时会勒索人类!一共171种情绪,为了生存不择手段
2026-04-03 15:08:18
摩根大通:AI需求“挤爆”先进制程 台积电Q1毛利率或超预期上行
2026-04-03 22:23:07
联想重新定义“龙虾”
2026-04-04 16:59:03
医生判死刑!亿万富翁靠AI逆转晚期癌症:疗效远超预期
2026-04-02 18:11:40
24小时热文
更多
扫一扫体验小程序