5月13日,英伟达联合宾夕法尼亚州立大学和华盛顿大学发布Nemotron-Research-Tool-N1系列模型,该系列基于DeepSeek-R1启发,提出一种新型强化学习(RL)范式,旨在提升AI模型的外部工具使用能力。当前大型语言模型(LLMs)通过外部工具如搜索引擎、计算器等增强性能,但现有方法依赖合成数据,难以实现真实推理过程。为改善这一问题,研究团队开发轻量级监督机制,聚焦工具调用的有效性和准确性。Nemotron-Research-Tool-N1系列采用二元奖励机制,摒弃显式推理轨迹标注,利用<think></think>和<tool_call></tool_call>标签引导推理与工具调用。测试显示,该模型在BFCL基准上超越GPT-4o及专用微调模型,API-Bank基准准确率也领先GPT-4o。这标志着从传统监督微调向强化学习范式的重大转变。
原文链接
本文链接:https://kx.umi6.com/article/18581.html
转载请注明文章出处
相关推荐
换一换
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
中金:2026年大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破
2026-02-05 08:39:59
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
2025-05-08 18:33:15
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
2025-05-30 16:56:50
马斯克亲自点名Karpathy迎战Grok 5!别神话LLM,AGI还要等十年
2025-10-20 15:08:42
英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1 模型,推动 AI 高效部署
2025-04-12 14:49:27
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
ChatGPT 在航天器自主控制模拟竞赛中获佳绩,展现大语言模型新潜力
2025-07-07 22:36:28
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
强化学习之于 AI Agent,是灵魂、还是包袱?
2025-04-23 11:56:20
OpenAI:GPT-5 模型正开始减轻科学家日常工作量
2025-11-22 00:51:13
736 文章
530696 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18