5月13日,英伟达联合宾夕法尼亚州立大学和华盛顿大学发布Nemotron-Research-Tool-N1系列模型,该系列基于DeepSeek-R1启发,提出一种新型强化学习(RL)范式,旨在提升AI模型的外部工具使用能力。当前大型语言模型(LLMs)通过外部工具如搜索引擎、计算器等增强性能,但现有方法依赖合成数据,难以实现真实推理过程。为改善这一问题,研究团队开发轻量级监督机制,聚焦工具调用的有效性和准确性。Nemotron-Research-Tool-N1系列采用二元奖励机制,摒弃显式推理轨迹标注,利用<think></think>和<tool_call></tool_call>标签引导推理与工具调用。测试显示,该模型在BFCL基准上超越GPT-4o及专用微调模型,API-Bank基准准确率也领先GPT-4o。这标志着从传统监督微调向强化学习范式的重大转变。
原文链接
本文链接:https://kx.umi6.com/article/18581.html
转载请注明文章出处
相关推荐
换一换
超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品
2025-04-01 11:18:45
AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
2025-04-09 21:08:08
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
2025-05-17 13:07:29
Qwen首次公开强化学习核心算法,超越字节GRPO
2025-07-28 15:17:21
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
2025-09-26 11:24:15
研究显示:AI 解 6x6 数独都费劲,解释决策时还答非所问
2025-08-07 10:46:45
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
2025-03-20 19:41:21
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
2025-10-30 10:33:49
无需外部数据!AI自问自答实现推理能力进化
2025-08-08 16:13:47
受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜
2025-03-17 12:37:44
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
2025-05-23 13:51:09
Epoch AI 预言:最快 1 年内,推理模型步伐将放缓
2025-05-14 09:09:06
707 文章
470998 浏览
24小时热文
更多
-
2026-01-23 11:53:08 -
2026-01-23 11:52:03 -
2026-01-23 11:50:59