4月11日,英伟达发布大型语言模型Llama-3.1-Nemotron-Ultra-253B-v1(简称Nemotron Ultra),该模型拥有2530亿参数,在推理能力、架构效率及生产准备度方面取得重大进展。作为Meta Llama-3.1-405B-Instruct架构的升级版,Nemotron Ultra专为企业和开发者设计,支持复杂指令执行及多轮对话。该模型采用创新的跳跃注意力机制,部分层省略或替换注意力模块,并通过前馈网络融合技术提升效率,上下文窗口可达128K token,适合长文本处理。在部署方面,Nemotron Ultra可在单个8xH100节点上高效运行,大幅降低数据中心成本。此外,英伟达通过多阶段后训练优化,包括监督微调和强化学习(RL),使其在多项基准测试中表现优异。
原文链接
本文链接:https://kx.umi6.com/article/17063.html
转载请注明文章出处
相关推荐
.png)
换一换
ChatGPT 在航天器自主控制模拟竞赛中获佳绩,展现大语言模型新潜力
2025-07-07 22:36:28
英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力
2025-05-14 15:16:49
投入数亿美元的大模型“对齐”,脆弱得像饺子皮
2025-03-16 10:44:00
AI热潮和互联网浪潮,区别在哪?
2024-06-26 15:51:46
26 年前的古董 Win98 电脑成功运行大语言模型:搭载奔腾 II 处理器、128MB 内存
2024-12-30 09:11:33
从AI Agent再到Agentic workflow,6个类别25篇论文全面了解智能体工作流
2024-07-25 21:59:40
微软 CTO 坚信大型语言模型的“规模定律”依然奏效,未来可期
2024-07-16 18:58:12
苹果计划在2026年推出Siri改版 增加更多自研人工智能
2024-11-22 05:52:14
Omdia:预计 2029 年生成式 AI 市场规模达 728 亿美元
2024-12-11 17:32:48
英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1 模型,推动 AI 高效部署
2025-04-12 14:49:27
o3来了,通用人工智能真的触手可及吗?
2025-01-07 09:58:26
苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?
2025-09-03 18:49:23
研究显示:AI 解 6x6 数独都费劲,解释决策时还答非所问
2025-08-07 10:46:45
486 文章
166240 浏览
24小时热文
更多

-
2025-09-06 23:39:46
-
2025-09-06 22:39:24
-
2025-09-06 21:38:26