标题:中山大学郭裕兰团队:多智能体协作难题的突破丨CVPR 2026
正文:
在电商仓库中,机器人协同分拣、运输;在自动驾驶场景中,车辆需要相互配合。这些复杂任务往往无法由单个智能体独立完成,而现实环境又不允许频繁试错,因为每次失误都可能带来高昂代价。因此,离线强化学习成为研究热点——通过已有数据训练策略,而非依赖实时试错。然而,当从单智能体扩展到多智能体时,问题迅速变得复杂:系统不仅需要决策,还需在稀疏反馈下学会协作。
当前行业的一大瓶颈是,许多方法在实验环境中表现良好,但在离线多智能体场景中却暴露出问题。一方面,真实任务中的奖励信号稀疏,模型难以判断哪一步正确;另一方面,多智能体协作涉及责任分配问题,成功后难以确定哪个智能体贡献最大。这导致即使有大量历史数据,系统仍难以实现稳定协作和泛化能力。
针对这一问题,中山大学郭裕兰团队提出了 MangoBench,并在其研究《MangoBench: A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》中重新定义了关键问题:当多个智能体无法随意试错时,如何真正学会协作?团队摒弃传统奖励驱动,转为目标驱动,让模型围绕目标状态学习,为离线多智能体强化学习提供了新路径。
实验表明,团队提出的 IHIQL 方法在导航任务中成功率高达 80%-95%,远超其他方法。而在机械臂任务中,IHIQL 的成功率超过 80%,且训练时间仅为模仿学习方法的 5%。不过,在异步协作任务中,ICRL 表现更优,说明不同方法适用于不同场景。此外,分布式方法 IHIQL 在复杂任务中表现稳定,而集中训练方法 HIQL-CTDE 则因信息过载导致性能骤降。
研究还揭示了多智能体系统的核心难点:一是稀疏奖励导致学习信号不足;二是责任分配问题影响协作效果。通过引入目标驱动和分层策略,团队有效缓解了这些问题。分层方法将复杂任务拆解为多个小步骤,使模型更容易获得阶段性反馈,从而提升稳定性与泛化能力。
这项研究对现实生活意义重大。自动驾驶、仓储物流、工业自动化等领域都需要多智能体在无试错条件下高效协作。未来,随着研究深入,普通人或将受益于更安全的自动驾驶、更高效的物流机器人以及更可靠的医疗辅助设备。
论文地址:https://wendyeewang.github.io/MangoBench/
-
2026-04-22 17:32:28 -
2026-04-22 17:31:23 -
2026-04-22 17:30:14