5月13日,英伟达联合宾夕法尼亚州立大学和华盛顿大学发布Nemotron-Research-Tool-N1系列模型,该系列基于DeepSeek-R1启发,提出一种新型强化学习(RL)范式,旨在提升AI模型的外部工具使用能力。当前大型语言模型(LLMs)通过外部工具如搜索引擎、计算器等增强性能,但现有方法依赖合成数据,难以实现真实推理过程。为改善这一问题,研究团队开发轻量级监督机制,聚焦工具调用的有效性和准确性。Nemotron-Research-Tool-N1系列采用二元奖励机制,摒弃显式推理轨迹标注,利用<think></think>和<tool_call></tool_call>标签引导推理与工具调用。测试显示,该模型在BFCL基准上超越GPT-4o及专用微调模型,API-Bank基准准确率也领先GPT-4o。这标志着从传统监督微调向强化学习范式的重大转变。
原文链接
本文链接:https://kx.umi6.com/article/18581.html
转载请注明文章出处
相关推荐
换一换
超越ZIP的无损压缩来了!华盛顿大学让大模型成为无损文本压缩器
2025-10-11 15:28:38
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
上交博士最新思考:仅用两个问题讲清强化学习
2025-11-10 18:29:12
我不给人做产品,给Agent做
2025-06-30 08:39:41
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
2025-04-09 21:08:08
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
2025-05-23 13:51:09
8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队
2026-01-07 16:15:48
奥尔特曼:感受不到 GPT-5 变强,是因为你还不够「专业」
2025-10-05 20:24:55
DeepSeek登《Nature》封面,梁文锋带队,首次回应争议
2025-09-18 13:54:10
776 文章
622690 浏览
24小时热文
更多
-
2026-04-24 12:12:33 -
2026-04-24 12:11:28 -
2026-04-24 12:10:22