AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
斯坦福大学团队提出了一种名为AgentFlow的新框架,通过在线强化学习显著提升了智能体系统的推理能力。该框架由规划器、执行器、验证器和生成器四个专业智能体组成,利用共享内存协作,并通过创新的Flow-GRPO算法实时优化规划器。
以Qwen-2.5-7B-Instruct为基座模型,AgentFlow在10个基准测试中表现优异:搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%,甚至超越了比其规模大50倍的GPT-4o和Llama3.1-405B模型。
AgentFlow的核心在于“工具集成+流中强化学习”。规划器分析任务并选择工具,执行器调用工具整合结果,验证器评估中间结果,生成器输出最终答案。规划器能够在智能体交互的“流”中实时优化,形成闭环自适应推理过程。
实验表明,AgentFlow不仅性能优于现有方法,还展现出以下优势:
1. 模型规模不是唯一答案:7B参数的AgentFlow在多项任务上超越200B参数的大模型,证明系统设计和训练方法的重要性。
2. “在流中学习”至关重要:在线学习使规划器性能显著高于离线监督学习。
3. 自主发现新路径:经过训练的系统能组合工具,探索新策略,如结合维基百科和网页搜索挖掘信息。
4. 动态推理深度优化:针对复杂任务,AgentFlow增加有效推理步数,而不会无谓延长简单任务的处理时间。
AgentFlow展示了群体智能与“边做边学”范式的潜力,为智能体系统提供了全新思路。未来,Agentic AI的应用前景广阔。
论文地址:https://arxiv.org/abs/2510.05592
项目主页:https://agentflow.stanford.edu/
Github仓库:https://github.com/lupantech/AgentFlow
在线Demo:https://huggingface.co/spaces/AgentFlow/agentflow
YouTube视频:https://www.youtube.com/watch?v=kIQbCQIH1SI
-
2025-10-24 15:43:29 -
2025-10-24 15:42:18 -
2025-10-24 15:41:04