1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

PettingLLMs团队 投稿
量子位 | 公众号 QbitAI

来自UCSD和英特尔的研究团队提出了一种通用化多智能体强化学习框架——PettingLLMs,首次实现了“群体强化”,显著提升了大语言模型(LLM)在多智能体协作中的表现。实验表明,在多个任务中,该框架可将性能提升最高达5.8倍。

研究背景

大语言模型驱动的多智能体系统已在医疗、编程、科研等领域展现出巨大潜力。然而,现有的强化学习框架(如GRPO算法)仅适用于单智能体训练,无法有效处理多智能体间的协作优化问题。核心难点在于,多智能体环境中的上下文(prompt)会因轮次和角色的不同而变化,导致传统方法难以公平评估各智能体的表现。

方法概述

研究团队提出了一种基于树状采样的贪心搜索方法,每轮为每个智能体生成多个分支,并选择奖励最高的分支进行下一轮扩展。这种方法平衡了探索与利用,同时通过设计专属奖励函数,兼顾了个体能力和全局协作的进化。

此外,团队开发了一套异步分发训练系统,支持两种模式:
1. 专属模型模式:为不同智能体分配独立资源池,分别更新模型;
2. 共享模型模式:合并所有智能体数据,集中更新一个共享模型。

PettingLLMs框架开源且灵活,支持任意模型与智能体映射,适配多种任务(如数学、代码、游戏等),并提供详细教程以简化开发流程。

实验效果

实验覆盖规划、代码生成和数学推理三大类任务,结果显著:
- 规划任务:Sokoban任务成功率从14%提升至96%,Plan-Path从47%提升至99.5%;
- 代码生成:LiveCodeBench提升6.1%,APPS提升4.2%,CodeContests提升7.0%;
- 数学推理:AIME 24提升9.0%,AIME 25提升17.9%。

消融实验进一步验证了框架的关键设计:
- 单智能体训练收益有限,联合训练才能实现高效协作;
- 角色互换会导致性能大幅下降,表明智能体学到了互补且不可替代的能力;
- 随着训练推进,智能体间协作更紧密,任务所需回合数持续减少。

论文:https://huggingface.co/papers/2510.11062
GitHub:https://github.com/pettingllms-ai/PettingLLMs

原文链接
本文链接:https://kx.umi6.com/article/28013.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
2025-05-23 13:51:09
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025-10-20 16:09:01
Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证
2025-05-24 15:19:19
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
2025-05-08 18:33:15
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
强化学习之于 AI Agent,是灵魂、还是包袱?
2025-04-23 11:56:20
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
2025-04-02 17:34:52
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
24小时热文
更多
扫一扫体验小程序