英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

2025-05-14 15:16:49

DreamCoder

发布在

快讯

阅读：593

5月13日，英伟达联合宾夕法尼亚州立大学和华盛顿大学发布Nemotron-Research-Tool-N1系列模型，该系列基于DeepSeek-R1启发，提出一种新型强化学习（RL）范式，旨在提升AI模型的外部工具使用能力。当前大型语言模型(LLMs)通过外部工具如搜索引擎、计算器等增强性能，但现有方法依赖合成数据，难以实现真实推理过程。为改善这一问题，研究团队开发轻量级监督机制，聚焦工具调用的有效性和准确性。Nemotron-Research-Tool-N1系列采用二元奖励机制，摒弃显式推理轨迹标注，利用<think></think>和<tool_call></tool_call>标签引导推理与工具调用。测试显示，该模型在BFCL基准上超越GPT-4o及专用微调模型，API-Bank基准准确率也领先GPT-4o。这标志着从传统监督微调向强化学习范式的重大转变。

原文链接

本文链接：https://kx.umi6.com/article/18581.html

转载请注明文章出处

外部工具