5月13日,英伟达联合宾夕法尼亚州立大学和华盛顿大学发布Nemotron-Research-Tool-N1系列模型,该系列基于DeepSeek-R1启发,提出一种新型强化学习(RL)范式,旨在提升AI模型的外部工具使用能力。当前大型语言模型(LLMs)通过外部工具如搜索引擎、计算器等增强性能,但现有方法依赖合成数据,难以实现真实推理过程。为改善这一问题,研究团队开发轻量级监督机制,聚焦工具调用的有效性和准确性。Nemotron-Research-Tool-N1系列采用二元奖励机制,摒弃显式推理轨迹标注,利用<think></think>和<tool_call></tool_call>标签引导推理与工具调用。测试显示,该模型在BFCL基准上超越GPT-4o及专用微调模型,API-Bank基准准确率也领先GPT-4o。这标志着从传统监督微调向强化学习范式的重大转变。
原文链接
本文链接:https://kx.umi6.com/article/18581.html
转载请注明文章出处
相关推荐
.png)
换一换
o3来了,通用人工智能真的触手可及吗?
2025-01-07 09:58:26
苹果计划在2026年推出Siri改版 增加更多自研人工智能
2024-11-22 05:52:14
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-03-08 11:48:22
479 文章
76583 浏览
24小时热文
更多

-
2025-07-19 15:54:36
-
2025-07-19 15:54:26
-
2025-07-19 14:57:21