正文:2025年8月11日,科技公司OpenPipe发布全新开源强化学习框架MCP·RL,专为AI在MCP(多工具协作平台)中自动发现和调用工具设计。该框架无需人工配置工具、编写提示或标注数据,AI可自主生成任务并通过闭环反馈优化策略。实测显示,MCP·RL在2/3的基准测试中达到或超越当前最佳性能(SOTA),效果优于GPT等模型。其训练流程包括工具发现、任务生成、实战训练及泛化测试,显著降低复杂任务的配置成本。MCP·RL是基于ART(Agent Reinforcement Trainer)系统的最新项目,适用于任何Python应用,开箱即用。此前,ART曾成功提升Qwen 2.5-14B在电子邮件检索任务中的表现。参考链接:[1] [2]
原文链接
本文链接:https://kx.umi6.com/article/23329.html
转载请注明文章出处
相关推荐
.png)
换一换
未来的科技历史,将如何发展?
2025-03-07 10:03:26
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
2025-01-26 17:15:51
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
图文并茂:DeepSeek R1 是怎么练成的
2025-02-18 11:11:33
推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术
2025-02-27 15:32:45
受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜
2025-03-17 12:37:44
图灵奖的获奖者们,担心成为AI界的“奥本海默”
2025-03-10 15:42:20
面壁智能联创谈 DeepSeek 出圈:与 OpenAI o1 不开源有关,R1 模型创造了新的 ChatGPT 时刻
2025-02-06 09:27:16
OpenAI 最新论文:o3 在 IOI 2024 严格规则下拿到 395.64 分达成金牌成就
2025-02-12 19:37:54
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
2025-05-17 13:07:29
我不给人做产品,给Agent做
2025-06-30 08:39:41
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
2025-02-16 12:22:15
480 文章
84192 浏览
24小时热文
更多

-
2025-08-11 11:04:47
-
2025-08-11 11:03:52
-
2025-08-11 11:03:43