1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

斯坦福大学团队提出了一种名为AgentFlow的新框架,通过在线强化学习显著提升了智能体系统的推理能力。该框架由规划器、执行器、验证器和生成器四个专业智能体组成,利用共享内存协作,并通过创新的Flow-GRPO算法实时优化规划器。

以Qwen-2.5-7B-Instruct为基座模型,AgentFlow在10个基准测试中表现优异:搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%,甚至超越了比其规模大50倍的GPT-4o和Llama3.1-405B模型。

AgentFlow的核心在于“工具集成+流中强化学习”。规划器分析任务并选择工具,执行器调用工具整合结果,验证器评估中间结果,生成器输出最终答案。规划器能够在智能体交互的“流”中实时优化,形成闭环自适应推理过程。

实验表明,AgentFlow不仅性能优于现有方法,还展现出以下优势:
1. 模型规模不是唯一答案:7B参数的AgentFlow在多项任务上超越200B参数的大模型,证明系统设计和训练方法的重要性。
2. “在流中学习”至关重要:在线学习使规划器性能显著高于离线监督学习。
3. 自主发现新路径:经过训练的系统能组合工具,探索新策略,如结合维基百科和网页搜索挖掘信息。
4. 动态推理深度优化:针对复杂任务,AgentFlow增加有效推理步数,而不会无谓延长简单任务的处理时间。

AgentFlow展示了群体智能与“边做边学”范式的潜力,为智能体系统提供了全新思路。未来,Agentic AI的应用前景广阔。

论文地址:https://arxiv.org/abs/2510.05592
项目主页:https://agentflow.stanford.edu/
Github仓库:https://github.com/lupantech/AgentFlow
在线Demo:https://huggingface.co/spaces/AgentFlow/agentflow
YouTube视频:https://www.youtube.com/watch?v=kIQbCQIH1SI

原文链接
本文链接:https://kx.umi6.com/article/27239.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
只剩 5 年?诺奖得主 Hassabis 放出 AGI 时间表:还差一两个技术突破
2026-01-18 18:34:31
联想新一代智能体系统“天禧 AS”发布,明年 Q2 落地 AI PC、AI 手机、AI 平板等
2024-12-27 09:59:45
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
2025-10-24 12:36:00
思必驰俞凯:分布式大模型智能体系统是 AGI 时代一道别样的风景
2024-12-18 16:34:28
英伟达投资的数据中心公司Nscale完成20亿美元融资 估值达146亿美元
2026-03-09 18:02:36
麦肯锡:AI不是对手而是工具 善用AI的毕业生就业更吃香
2026-03-06 23:43:55
交通运输部部长刘伟:“十五五”时期重点深入实施“人工智能+”行动
2026-03-09 11:33:23
OpenClaw最强外挂出现:小龙虾抓不到数据有救了!
2026-03-08 18:27:06
88岁图灵奖得主,用Claude一小时破解30年数学悬案
2026-03-09 13:41:57
腾讯版“小龙虾”WorkBuddy正式上线
2026-03-09 15:52:31
网文作家遇职业危机!AI写作48小时生成500万字长篇小说
2026-03-08 15:12:48
周鸿祎解读AI短剧:直言有望颠覆Netflix 生产效率提升数十倍
2026-03-08 14:07:20
周鸿祎:只有通过多智能体协作 才能让人工智能真正落地
2026-03-07 21:02:28
24小时热文
更多
扫一扫体验小程序