标题:Bye,英伟达!华为NPU,跑出了准万亿参数大模型
正文:
现在,训练万亿参数大模型不再依赖英伟达,华为做到了!技术报告发布在arxiv.org/abs/2505.04519。
此前,训练万亿参数大模型面临负载均衡难、通信开销大等问题。华为盘古团队基于昇腾国产算力平台,完成了7180亿参数MoE模型的长期稳定训练,并通过多项系统优化技术显著提升效率。
团队从架构优化、负载均衡、通信瓶颈、硬件适配等方面逐一突破。例如,通过增加隐藏层大小、减少激活参数量,提高计算效率和推理吞吐量;采用TP-extend-EP技术优化通信开销;设计分级EP通信和自适应前反向掩盖策略,解决通信瓶颈。
此外,团队研发了EP组负载均衡损失算法,既不过度追求均衡,又减少通信成本。在6000+昇腾NPU集群上,模型算力利用率提升58.7%,达到30.0%。
实验表明,盘古Ultra MoE在多领域表现出色,如通用理解、数学推理、代码生成等。其专家差异化显著,输出由共享专家和路由专家共同贡献,保持平衡,提升整体表征能力。
这项突破标志着国产算力平台跻身全球领先行列,展现了中国科技自主创新的实力,未来将助力智能化转型,为科技进步贡献“中国智慧”。
原文链接
本文链接:https://kx.umi6.com/article/18298.html
转载请注明文章出处
相关推荐
换一换
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
2025-11-18 14:20:39
豆包大模型2.0正式发布
2026-02-14 14:23:01
上海已发布超150款备案大模型
2026-03-28 20:16:44
豆包们,开始「上链接」
2025-10-27 10:54:08
Kimi春节档挣超一年钱!这口“龙虾肉”大厂开始抢吃了
2026-02-26 01:05:27
中信建投:持续推荐AI算力板块
2025-10-28 08:39:40
开源 AI 模型 TOP5,被中国厂商包圆
2025-10-15 18:39:57
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025-12-04 12:18:33
阿里千问大模型换将,32岁林俊旸官宣告别
2026-03-04 10:27:38
中金:2026年大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破
2026-02-05 08:39:59
Manus救不了Meta
2026-01-08 20:35:12
腾讯升级大模型研发架构 前OpenAI顶尖研究员出任首席AI科学家
2025-12-17 18:59:08
用DeepSeek改造ERP,到底难在哪?怎么破?
2025-10-11 09:33:30
713 文章
618771 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41