1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Bye,英伟达!华为NPU,跑出了准万亿参数大模型

正文:
现在,训练万亿参数大模型不再依赖英伟达,华为做到了!技术报告发布在arxiv.org/abs/2505.04519。

此前,训练万亿参数大模型面临负载均衡难、通信开销大等问题。华为盘古团队基于昇腾国产算力平台,完成了7180亿参数MoE模型的长期稳定训练,并通过多项系统优化技术显著提升效率。

团队从架构优化、负载均衡、通信瓶颈、硬件适配等方面逐一突破。例如,通过增加隐藏层大小、减少激活参数量,提高计算效率和推理吞吐量;采用TP-extend-EP技术优化通信开销;设计分级EP通信和自适应前反向掩盖策略,解决通信瓶颈。

此外,团队研发了EP组负载均衡损失算法,既不过度追求均衡,又减少通信成本。在6000+昇腾NPU集群上,模型算力利用率提升58.7%,达到30.0%。

实验表明,盘古Ultra MoE在多领域表现出色,如通用理解、数学推理、代码生成等。其专家差异化显著,输出由共享专家和路由专家共同贡献,保持平衡,提升整体表征能力。

这项突破标志着国产算力平台跻身全球领先行列,展现了中国科技自主创新的实力,未来将助力智能化转型,为科技进步贡献“中国智慧”。

原文链接
本文链接:https://kx.umi6.com/article/18298.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026
2025-12-22 10:35:49
豆包们,开始「上链接」
2025-10-27 10:54:08
美图吴欣鸿回应大模型竞争:美图应用数据仍在快速增长
2026-02-05 18:05:31
智谱与市城投集团合作发布杭州城投人工智能产业大模型项目(一期)建设成果
2025-09-15 20:01:43
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025-12-04 12:18:33
腾讯调整大模型组织架构:姚顺雨加盟,向总裁刘炽平汇报
2025-12-18 15:51:59
月之暗面 Kimi 创始人杨植麟:中国技术不仅要好用还要参与制定规则,未来大模型要推出到 K100
2026-01-12 09:22:11
SGLang原生支持昇腾,新模型一键拉起无需改代码
2025-12-21 23:08:38
大模型驱动算力革命 AI芯片迎破局新机遇
2025-09-18 07:47:51
火线解析智谱AI招股书:年营收3亿增速130%,率先冲刺全球大模型第一股
2025-12-19 23:14:23
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026
2025-12-21 10:35:20
两部门:到2027年推动五个以上专业大模型在电网、发电、煤炭、油气等行业深度应用
2025-09-08 10:56:26
24小时热文
更多
扫一扫体验小程序