1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

斯坦福大学团队提出了一种名为AgentFlow的新框架,通过在线强化学习显著提升了智能体系统的推理能力。该框架由规划器、执行器、验证器和生成器四个专业智能体组成,利用共享内存协作,并通过创新的Flow-GRPO算法实时优化规划器。

以Qwen-2.5-7B-Instruct为基座模型,AgentFlow在10个基准测试中表现优异:搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%,甚至超越了比其规模大50倍的GPT-4o和Llama3.1-405B模型。

AgentFlow的核心在于“工具集成+流中强化学习”。规划器分析任务并选择工具,执行器调用工具整合结果,验证器评估中间结果,生成器输出最终答案。规划器能够在智能体交互的“流”中实时优化,形成闭环自适应推理过程。

实验表明,AgentFlow不仅性能优于现有方法,还展现出以下优势:
1. 模型规模不是唯一答案:7B参数的AgentFlow在多项任务上超越200B参数的大模型,证明系统设计和训练方法的重要性。
2. “在流中学习”至关重要:在线学习使规划器性能显著高于离线监督学习。
3. 自主发现新路径:经过训练的系统能组合工具,探索新策略,如结合维基百科和网页搜索挖掘信息。
4. 动态推理深度优化:针对复杂任务,AgentFlow增加有效推理步数,而不会无谓延长简单任务的处理时间。

AgentFlow展示了群体智能与“边做边学”范式的潜力,为智能体系统提供了全新思路。未来,Agentic AI的应用前景广阔。

论文地址:https://arxiv.org/abs/2510.05592
项目主页:https://agentflow.stanford.edu/
Github仓库:https://github.com/lupantech/AgentFlow
在线Demo:https://huggingface.co/spaces/AgentFlow/agentflow
YouTube视频:https://www.youtube.com/watch?v=kIQbCQIH1SI

原文链接
本文链接:https://kx.umi6.com/article/27239.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
联想新一代智能体系统“天禧 AS”发布,明年 Q2 落地 AI PC、AI 手机、AI 平板等
2024-12-27 09:59:45
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
2025-10-24 12:36:00
思必驰俞凯:分布式大模型智能体系统是 AGI 时代一道别样的风景
2024-12-18 16:34:28
特朗普如愿了!首批“美国制造”苹果AI服务器已从得州发货
2025-10-24 10:34:44
微软 AI 部门 CEO 苏莱曼:我们要开发出能让家长放心给孩子用的 AI
2025-10-24 14:40:25
LiblibAI融资1.3亿美金,红杉中国、CMC资本等领投
2025-10-23 10:03:33
AMD 确认 Radeon AI PRO R9700 32GB 显卡 10 月 27 日零售上市,1299 美元起
2025-10-24 08:28:19
全国人大常委会法工委:网络安全法拟增加促进AI安全与发展内容
2025-10-23 18:13:26
Anthropic确认与谷歌云达成价值数百亿美元的合作协议
2025-10-24 05:23:38
OpenAI收购由前苹果员工创立的人工智能初创公司
2025-10-24 01:20:07
字节跳动推出3D生成大模型
2025-10-23 16:11:27
快手进军AICoding赛道
2025-10-23 16:11:06
强脑科技在成都设新公司 含AI相关业务
2025-10-23 14:07:29
24小时热文
更多
扫一扫体验小程序