LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

2025-11-08 13:43:06

跨界思维

发布在

快讯

阅读：762

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

PettingLLMs团队投稿
量子位 | 公众号 QbitAI

来自UCSD和英特尔的研究团队提出了一种通用化多智能体强化学习框架——PettingLLMs，首次实现了“群体强化”，显著提升了大语言模型（LLM）在多智能体协作中的表现。实验表明，在多个任务中，该框架可将性能提升最高达5.8倍。

研究背景

大语言模型驱动的多智能体系统已在医疗、编程、科研等领域展现出巨大潜力。然而，现有的强化学习框架（如GRPO算法）仅适用于单智能体训练，无法有效处理多智能体间的协作优化问题。核心难点在于，多智能体环境中的上下文（prompt）会因轮次和角色的不同而变化，导致传统方法难以公平评估各智能体的表现。

方法概述

研究团队提出了一种基于树状采样的贪心搜索方法，每轮为每个智能体生成多个分支，并选择奖励最高的分支进行下一轮扩展。这种方法平衡了探索与利用，同时通过设计专属奖励函数，兼顾了个体能力和全局协作的进化。

此外，团队开发了一套异步分发训练系统，支持两种模式：
1. 专属模型模式：为不同智能体分配独立资源池，分别更新模型；
2. 共享模型模式：合并所有智能体数据，集中更新一个共享模型。

PettingLLMs框架开源且灵活，支持任意模型与智能体映射，适配多种任务（如数学、代码、游戏等），并提供详细教程以简化开发流程。

实验效果

实验覆盖规划、代码生成和数学推理三大类任务，结果显著：
- 规划任务：Sokoban任务成功率从14%提升至96%，Plan-Path从47%提升至99.5%；
- 代码生成：LiveCodeBench提升6.1%，APPS提升4.2%，CodeContests提升7.0%；
- 数学推理：AIME 24提升9.0%，AIME 25提升17.9%。

消融实验进一步验证了框架的关键设计：
- 单智能体训练收益有限，联合训练才能实现高效协作；
- 角色互换会导致性能大幅下降，表明智能体学到了互补且不可替代的能力；
- 随着训练推进，智能体间协作更紧密，任务所需回合数持续减少。

论文：https://huggingface.co/papers/2510.11062
GitHub：https://github.com/pettingllms-ai/PettingLLMs

原文链接

本文链接：https://kx.umi6.com/article/28013.html

转载请注明文章出处

PettingLLMs