5月13日,英伟达联合宾夕法尼亚州立大学和华盛顿大学发布Nemotron-Research-Tool-N1系列模型,该系列基于DeepSeek-R1启发,提出一种新型强化学习(RL)范式,旨在提升AI模型的外部工具使用能力。当前大型语言模型(LLMs)通过外部工具如搜索引擎、计算器等增强性能,但现有方法依赖合成数据,难以实现真实推理过程。为改善这一问题,研究团队开发轻量级监督机制,聚焦工具调用的有效性和准确性。Nemotron-Research-Tool-N1系列采用二元奖励机制,摒弃显式推理轨迹标注,利用<think></think>和<tool_call></tool_call>标签引导推理与工具调用。测试显示,该模型在BFCL基准上超越GPT-4o及专用微调模型,API-Bank基准准确率也领先GPT-4o。这标志着从传统监督微调向强化学习范式的重大转变。
原文链接
本文链接:https://kx.umi6.com/article/18581.html
转载请注明文章出处
相关推荐
换一换
Epoch AI 预言:最快 1 年内,推理模型步伐将放缓
2025-05-14 09:09:06
字节Seed发布GR-RL 首次实现真机强化学习穿鞋带
2025-12-02 14:21:13
Meta 推 LlamaRL 强化学习框架:全异步分布设计,训练 AI 模型提速 10.7 倍
2025-06-11 16:14:21
OpenAI新模型被曝秘密训练中,o4会是什么样?
2025-06-10 18:54:49
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
打破代码大模型训练瓶颈:MicroCoder将算法数据框架训练经验升级
2026-03-30 01:19:37
小米最新大模型成果!罗福莉现身了
2025-10-17 16:21:28
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
姚班学霸、OpenAI姚顺雨:大模型下半场是产品的游戏
2025-04-17 17:47:23
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
2025-10-01 18:47:16
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
2025-05-23 13:51:09
803 文章
717483 浏览
24小时热文
更多
-
2026-06-08 23:49:41 -
2026-06-08 21:46:02 -
2026-06-08 19:42:13