正文:2025年8月11日,科技公司OpenPipe发布全新开源强化学习框架MCP·RL,专为AI在MCP(多工具协作平台)中自动发现和调用工具设计。该框架无需人工配置工具、编写提示或标注数据,AI可自主生成任务并通过闭环反馈优化策略。实测显示,MCP·RL在2/3的基准测试中达到或超越当前最佳性能(SOTA),效果优于GPT等模型。其训练流程包括工具发现、任务生成、实战训练及泛化测试,显著降低复杂任务的配置成本。MCP·RL是基于ART(Agent Reinforcement Trainer)系统的最新项目,适用于任何Python应用,开箱即用。此前,ART曾成功提升Qwen 2.5-14B在电子邮件检索任务中的表现。参考链接:[1] [2]
原文链接
本文链接:https://kx.umi6.com/article/23329.html
转载请注明文章出处
相关推荐
换一换
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
2025-06-20 21:05:08
腾讯AI Lab开源可复现的深度研究智能体,最大限度降低外部依赖
2025-08-06 16:33:31
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
字节Seed发布GR-RL 首次实现真机强化学习穿鞋带
2025-12-02 14:21:13
机器人马拉松冠军开源:北京人形机器人创新中心发布运动控制框架 Tien Kung-Lab
2025-07-07 21:36:36
Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证
2025-05-24 15:19:19
腾讯宣布开源 Youtu-GraphRAG 框架,解决图检索增强技术难题
2025-09-13 10:24:35
蚂蚁集团开源 Awex 框架,秒级完成 TB 级参数交换
2025-11-20 10:17:17
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
亚马逊开建AGI实验室,一号位也是华人
2025-09-22 09:54:37
Qwen首次公开强化学习核心算法,超越字节GRPO
2025-07-28 15:17:21
Epoch AI 预言:最快 1 年内,推理模型步伐将放缓
2025-05-14 09:09:06
610 文章
346311 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57