1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

正文:2025年8月11日,科技公司OpenPipe发布全新开源强化学习框架MCP·RL,专为AI在MCP(多工具协作平台)中自动发现和调用工具设计。该框架无需人工配置工具、编写提示或标注数据,AI可自主生成任务并通过闭环反馈优化策略。实测显示,MCP·RL在2/3的基准测试中达到或超越当前最佳性能(SOTA),效果优于GPT等模型。其训练流程包括工具发现、任务生成、实战训练及泛化测试,显著降低复杂任务的配置成本。MCP·RL是基于ART(Agent Reinforcement Trainer)系统的最新项目,适用于任何Python应用,开箱即用。此前,ART曾成功提升Qwen 2.5-14B在电子邮件检索任务中的表现。参考链接:[1] [2]

原文链接
本文链接:https://kx.umi6.com/article/23329.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
2025-06-20 21:05:08
机器狗能打羽毛球:仅靠强化学习从 0 自学,还会自己移步
2025-05-30 17:53:28
秒级生成百万级token!九章云极发布九章智算云Alaya NeW Cloud 2.0
2025-06-16 19:13:12
发自 凹非寺量子位 | 公众号 QbitAI 奥特曼点名表扬了两个波兰人。 没有他们,OpenAI就不是今天的样子。 他们是OpenAI首席科学家Jakub Pachocki以及头衔为“Technical Fellow”的Szymon Sidor。 △左:Jakub Pachocki,右:Szymon Sidor 两人不仅是波兰老乡,而且是高中同学,读博时分别选择了计算机科学和机器人,后来又在OpenAI重聚。 在ChatGPT风靡全球、每天服务数亿用户的今天,奥特曼感慨大多数人永远不会想到背
2025-09-09 18:18:27
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
字节Seed发布GR-RL 首次实现真机强化学习穿鞋带
2025-12-02 14:21:13
Epoch AI 预言:最快 1 年内,推理模型步伐将放缓
2025-05-14 09:09:06
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
机器人马拉松冠军开源:北京人形机器人创新中心发布运动控制框架 Tien Kung-Lab
2025-07-07 21:36:36
超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品
2025-04-01 11:18:45
英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力
2025-05-14 15:16:49
24小时热文
更多
扫一扫体验小程序