1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

5月13日,英伟达联合宾夕法尼亚州立大学和华盛顿大学发布Nemotron-Research-Tool-N1系列模型,该系列基于DeepSeek-R1启发,提出一种新型强化学习(RL)范式,旨在提升AI模型的外部工具使用能力。当前大型语言模型(LLMs)通过外部工具如搜索引擎、计算器等增强性能,但现有方法依赖合成数据,难以实现真实推理过程。为改善这一问题,研究团队开发轻量级监督机制,聚焦工具调用的有效性和准确性。Nemotron-Research-Tool-N1系列采用二元奖励机制,摒弃显式推理轨迹标注,利用<think></think>和<tool_call></tool_call>标签引导推理与工具调用。测试显示,该模型在BFCL基准上超越GPT-4o及专用微调模型,API-Bank基准准确率也领先GPT-4o。这标志着从传统监督微调向强化学习范式的重大转变。

原文链接
本文链接:https://kx.umi6.com/article/18581.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI新模型被曝秘密训练中,o4会是什么样?
2025-06-10 18:54:49
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1 模型,推动 AI 高效部署
2025-04-12 14:49:27
Meta 推 LlamaRL 强化学习框架:全异步分布设计,训练 AI 模型提速 10.7 倍
2025-06-11 16:14:21
50条数据解锁空间智能,RL视觉语言模型3D空间推理框架MetaSpatial |西北大学
2025-03-22 17:26:13
稚晖君机器人“葡萄缝针”神技再现江湖 这次是人形的
2025-03-11 23:55:21
机器狗能打羽毛球:仅靠强化学习从 0 自学,还会自己移步
2025-05-30 17:53:28
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
2025-10-01 18:47:16
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
研究显示:AI 解 6x6 数独都费劲,解释决策时还答非所问
2025-08-07 10:46:45
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
2025-08-26 13:43:07
超越ZIP的无损压缩来了!华盛顿大学让大模型成为无损文本压缩器
2025-10-11 15:28:38
24小时热文
更多
扫一扫体验小程序