正文:2025年8月11日,科技公司OpenPipe发布全新开源强化学习框架MCP·RL,专为AI在MCP(多工具协作平台)中自动发现和调用工具设计。该框架无需人工配置工具、编写提示或标注数据,AI可自主生成任务并通过闭环反馈优化策略。实测显示,MCP·RL在2/3的基准测试中达到或超越当前最佳性能(SOTA),效果优于GPT等模型。其训练流程包括工具发现、任务生成、实战训练及泛化测试,显著降低复杂任务的配置成本。MCP·RL是基于ART(Agent Reinforcement Trainer)系统的最新项目,适用于任何Python应用,开箱即用。此前,ART曾成功提升Qwen 2.5-14B在电子邮件检索任务中的表现。参考链接:[1] [2]
原文链接
本文链接:https://kx.umi6.com/article/23329.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI早期员工David Luan最新访谈:DeepSeek并未改变AI技术的叙事
2025-02-26 09:24:20
论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster
2025-06-03 17:59:46
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
腾讯AI Lab开源可复现的深度研究智能体,最大限度降低外部依赖
2025-08-06 16:33:31
卡帕西:强化学习很糟糕,但其他所有方法都更糟
2025-10-18 15:34:39
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
2025-05-23 13:51:09
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
发自 凹非寺量子位 | 公众号 QbitAI 奥特曼点名表扬了两个波兰人。 没有他们,OpenAI就不是今天的样子。 他们是OpenAI首席科学家Jakub Pachocki以及头衔为“Technical Fellow”的Szymon Sidor。 △左:Jakub Pachocki,右:Szymon Sidor 两人不仅是波兰老乡,而且是高中同学,读博时分别选择了计算机科学和机器人,后来又在OpenAI重聚。 在ChatGPT风靡全球、每天服务数亿用户的今天,奥特曼感慨大多数人永远不会想到背
2025-09-09 18:18:27
UCL强化学习派:汪军与他的学生们
2025-02-27 19:41:38
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-03-08 11:48:22
受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜
2025-03-17 12:37:44
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
2025-06-01 13:22:14
549 文章
250670 浏览
24小时热文
更多

-
2025-10-23 17:12:06
-
2025-10-23 17:10:54
-
2025-10-23 16:12:32