标题:Bye,英伟达!华为NPU,跑出了准万亿参数大模型
正文:
现在,训练万亿参数大模型不再依赖英伟达,华为做到了!技术报告发布在arxiv.org/abs/2505.04519。
此前,训练万亿参数大模型面临负载均衡难、通信开销大等问题。华为盘古团队基于昇腾国产算力平台,完成了7180亿参数MoE模型的长期稳定训练,并通过多项系统优化技术显著提升效率。
团队从架构优化、负载均衡、通信瓶颈、硬件适配等方面逐一突破。例如,通过增加隐藏层大小、减少激活参数量,提高计算效率和推理吞吐量;采用TP-extend-EP技术优化通信开销;设计分级EP通信和自适应前反向掩盖策略,解决通信瓶颈。
此外,团队研发了EP组负载均衡损失算法,既不过度追求均衡,又减少通信成本。在6000+昇腾NPU集群上,模型算力利用率提升58.7%,达到30.0%。
实验表明,盘古Ultra MoE在多领域表现出色,如通用理解、数学推理、代码生成等。其专家差异化显著,输出由共享专家和路由专家共同贡献,保持平衡,提升整体表征能力。
这项突破标志着国产算力平台跻身全球领先行列,展现了中国科技自主创新的实力,未来将助力智能化转型,为科技进步贡献“中国智慧”。
原文链接
本文链接:https://kx.umi6.com/article/18298.html
转载请注明文章出处
相关推荐
换一换
我国大模型数量居全球首位,达到 1509 个、占比达 40%
2025-07-27 13:57:47
关于 AI Infra 的一切
2025-08-11 19:08:22
当AI智能体走进诊室,大模型如何颠覆医疗?
2025-07-30 13:48:25
大模型产生幻觉,全怪人类PUA吗?
2025-09-10 15:36:03
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
2025WAIC:大厂回归,医疗AI爆火出圈
2025-07-30 15:47:42
大模型隐私安全和公平性有“跷跷板”效应,最佳平衡法则刚刚找到 | 人大&上海AI Lab
2025-07-28 09:07:15
上海:推动医疗器械相关垂类大模型研发应用
2025-09-15 16:02:14
腾讯发布全新大模型混元3D 3.0
2025-09-16 10:11:57
大模型又迎来重要玩家!美团首个开源大模型来了
2025-09-01 18:28:28
中国中文信息学会2025学术年会暨第二届中国大模型大会(CIPS & CLM 2025)于10月28日在北京盛大开幕
2025-10-30 18:52:50
OpenAI的命门,决定了大模型公司的未来
2025-09-03 14:48:12
中国企业调用大模型日均超10万亿Tokens
2025-09-01 12:17:48
584 文章
358078 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57