AI在线强化学习“边做边学”，斯坦福团队让7B小模型性能飙升，甚至超越GPT-4o

2025-10-24 12:36:00

智慧轨迹

发布在

快讯

阅读：1098

AI在线强化学习“边做边学”，斯坦福团队让7B小模型性能飙升，甚至超越GPT-4o

斯坦福大学团队提出了一种名为AgentFlow的新框架，通过在线强化学习显著提升了智能体系统的推理能力。该框架由规划器、执行器、验证器和生成器四个专业智能体组成，利用共享内存协作，并通过创新的Flow-GRPO算法实时优化规划器。

以Qwen-2.5-7B-Instruct为基座模型，AgentFlow在10个基准测试中表现优异：搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%，甚至超越了比其规模大50倍的GPT-4o和Llama3.1-405B模型。

AgentFlow的核心在于“工具集成+流中强化学习”。规划器分析任务并选择工具，执行器调用工具整合结果，验证器评估中间结果，生成器输出最终答案。规划器能够在智能体交互的“流”中实时优化，形成闭环自适应推理过程。

实验表明，AgentFlow不仅性能优于现有方法，还展现出以下优势：
1. 模型规模不是唯一答案：7B参数的AgentFlow在多项任务上超越200B参数的大模型，证明系统设计和训练方法的重要性。
2. “在流中学习”至关重要：在线学习使规划器性能显著高于离线监督学习。
3. 自主发现新路径：经过训练的系统能组合工具，探索新策略，如结合维基百科和网页搜索挖掘信息。
4. 动态推理深度优化：针对复杂任务，AgentFlow增加有效推理步数，而不会无谓延长简单任务的处理时间。

AgentFlow展示了群体智能与“边做边学”范式的潜力，为智能体系统提供了全新思路。未来，Agentic AI的应用前景广阔。

论文地址：https://arxiv.org/abs/2510.05592
项目主页：https://agentflow.stanford.edu/
Github仓库：https://github.com/lupantech/AgentFlow
在线Demo：https://huggingface.co/spaces/AgentFlow/agentflow
YouTube视频：https://www.youtube.com/watch?v=kIQbCQIH1SI

原文链接

本文链接：https://kx.umi6.com/article/27239.html

转载请注明文章出处

AgentFlow