中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

2026-04-22 16:18:49

GhostPilot

发布在

科普

阅读：112

标题：中山大学郭裕兰团队：多智能体协作难题的突破丨CVPR 2026

正文：
在电商仓库中，机器人协同分拣、运输；在自动驾驶场景中，车辆需要相互配合。这些复杂任务往往无法由单个智能体独立完成，而现实环境又不允许频繁试错，因为每次失误都可能带来高昂代价。因此，离线强化学习成为研究热点——通过已有数据训练策略，而非依赖实时试错。然而，当从单智能体扩展到多智能体时，问题迅速变得复杂：系统不仅需要决策，还需在稀疏反馈下学会协作。

当前行业的一大瓶颈是，许多方法在实验环境中表现良好，但在离线多智能体场景中却暴露出问题。一方面，真实任务中的奖励信号稀疏，模型难以判断哪一步正确；另一方面，多智能体协作涉及责任分配问题，成功后难以确定哪个智能体贡献最大。这导致即使有大量历史数据，系统仍难以实现稳定协作和泛化能力。

针对这一问题，中山大学郭裕兰团队提出了 MangoBench，并在其研究《MangoBench: A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》中重新定义了关键问题：当多个智能体无法随意试错时，如何真正学会协作？团队摒弃传统奖励驱动，转为目标驱动，让模型围绕目标状态学习，为离线多智能体强化学习提供了新路径。

实验表明，团队提出的 IHIQL 方法在导航任务中成功率高达 80%-95%，远超其他方法。而在机械臂任务中，IHIQL 的成功率超过 80%，且训练时间仅为模仿学习方法的 5%。不过，在异步协作任务中，ICRL 表现更优，说明不同方法适用于不同场景。此外，分布式方法 IHIQL 在复杂任务中表现稳定，而集中训练方法 HIQL-CTDE 则因信息过载导致性能骤降。

研究还揭示了多智能体系统的核心难点：一是稀疏奖励导致学习信号不足；二是责任分配问题影响协作效果。通过引入目标驱动和分层策略，团队有效缓解了这些问题。分层方法将复杂任务拆解为多个小步骤，使模型更容易获得阶段性反馈，从而提升稳定性与泛化能力。

这项研究对现实生活意义重大。自动驾驶、仓储物流、工业自动化等领域都需要多智能体在无试错条件下高效协作。未来，随着研究深入，普通人或将受益于更安全的自动驾驶、更高效的物流机器人以及更可靠的医疗辅助设备。

论文地址：https://wendyeewang.github.io/MangoBench/

原文链接

本文链接：https://kx.umi6.com/article/35079.html

转载请注明文章出处

多智能体协作