1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

5月13日,英伟达联合宾夕法尼亚州立大学和华盛顿大学发布Nemotron-Research-Tool-N1系列模型,该系列基于DeepSeek-R1启发,提出一种新型强化学习(RL)范式,旨在提升AI模型的外部工具使用能力。当前大型语言模型(LLMs)通过外部工具如搜索引擎、计算器等增强性能,但现有方法依赖合成数据,难以实现真实推理过程。为改善这一问题,研究团队开发轻量级监督机制,聚焦工具调用的有效性和准确性。Nemotron-Research-Tool-N1系列采用二元奖励机制,摒弃显式推理轨迹标注,利用<think></think>和<tool_call></tool_call>标签引导推理与工具调用。测试显示,该模型在BFCL基准上超越GPT-4o及专用微调模型,API-Bank基准准确率也领先GPT-4o。这标志着从传统监督微调向强化学习范式的重大转变。

原文链接
本文链接:https://kx.umi6.com/article/18581.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新训练方法
2025-08-22 16:50:16
为何强化学习火遍硅谷?AGI的关键一步
2025-08-07 15:55:40
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
Gemini2.5弯道超车背后的灵魂人物
2025-06-05 11:52:48
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-03-08 11:48:22
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
2025-01-26 17:15:51
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
投入数亿美元的大模型“对齐”,脆弱得像饺子皮
2025-03-16 10:44:00
从蛰伏到王炸,RL启示录
2025-03-25 19:11:14
我不给人做产品,给Agent做
2025-06-30 08:39:41
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
2025-05-08 11:29:43
24小时热文
更多
扫一扫体验小程序