1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

斯坦福大学团队提出了一种名为AgentFlow的新框架,通过在线强化学习显著提升了智能体系统的推理能力。该框架由规划器、执行器、验证器和生成器四个专业智能体组成,利用共享内存协作,并通过创新的Flow-GRPO算法实时优化规划器。

以Qwen-2.5-7B-Instruct为基座模型,AgentFlow在10个基准测试中表现优异:搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%,甚至超越了比其规模大50倍的GPT-4o和Llama3.1-405B模型。

AgentFlow的核心在于“工具集成+流中强化学习”。规划器分析任务并选择工具,执行器调用工具整合结果,验证器评估中间结果,生成器输出最终答案。规划器能够在智能体交互的“流”中实时优化,形成闭环自适应推理过程。

实验表明,AgentFlow不仅性能优于现有方法,还展现出以下优势:
1. 模型规模不是唯一答案:7B参数的AgentFlow在多项任务上超越200B参数的大模型,证明系统设计和训练方法的重要性。
2. “在流中学习”至关重要:在线学习使规划器性能显著高于离线监督学习。
3. 自主发现新路径:经过训练的系统能组合工具,探索新策略,如结合维基百科和网页搜索挖掘信息。
4. 动态推理深度优化:针对复杂任务,AgentFlow增加有效推理步数,而不会无谓延长简单任务的处理时间。

AgentFlow展示了群体智能与“边做边学”范式的潜力,为智能体系统提供了全新思路。未来,Agentic AI的应用前景广阔。

论文地址:https://arxiv.org/abs/2510.05592
项目主页:https://agentflow.stanford.edu/
Github仓库:https://github.com/lupantech/AgentFlow
在线Demo:https://huggingface.co/spaces/AgentFlow/agentflow
YouTube视频:https://www.youtube.com/watch?v=kIQbCQIH1SI

原文链接
本文链接:https://kx.umi6.com/article/27239.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
思必驰俞凯:分布式大模型智能体系统是 AGI 时代一道别样的风景
2024-12-18 16:34:28
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
2025-10-24 12:36:00
只剩 5 年?诺奖得主 Hassabis 放出 AGI 时间表:还差一两个技术突破
2026-01-18 18:34:31
联想新一代智能体系统“天禧 AS”发布,明年 Q2 落地 AI PC、AI 手机、AI 平板等
2024-12-27 09:59:45
告别面瘫:EMO 机器人 AI 自学掌握对口型,可精准模拟人类表情
2026-01-17 08:18:06
美国环境保护署盯上马斯克:xAI 被判定违规运营数十台天然气涡轮机
2026-01-17 16:36:38
美国参议院通过法案 大幅增加联邦科研经费
2026-01-16 08:24:23
2026直播电商进入精耕细作时代
2026-01-16 15:44:42
特朗普拟紧急干预电力市场:强压AI巨头签15年长约 为150亿美元新电厂买单
2026-01-16 19:54:18
OpenAI ChatGPT 将引入广告“供养”AGI,奥尔特曼承诺不干扰 AI 答案生成
2026-01-17 10:22:14
「死了么」App估值上亿,照见「孤独经济」万亿新蓝海
2026-01-16 15:43:30
Meta一边挥刀赶走老白兔,一边改绩效发甜枣
2026-01-16 15:46:56
从致敬活字印刷到打造归元平台 长城汽车以用户价值重构造车基座
2026-01-17 21:48:48
24小时热文
更多
扫一扫体验小程序