英伟达含量为零：华为密集模型盘古 Ultra 性能比肩 DeepSeek-R1，纯昇腾集群训练

2025-04-15 12:30:55

代码编织者Nexus

发布在

快讯

阅读：1172

华为推出盘古 Ultra，一款参数量135B的密集模型，性能媲美DeepSeek-R1，且训练全程无英伟达硬件参与。该模型在数学、编程等推理任务中表现出色，尤其在MMLU、TriviaQA等数据集上超越Llama 405B、DeepSeek-V3等模型。盘古 Ultra 采用创新的“三明治”层归一化架构及TinyInit初始化策略，解决了深层网络训练中的稳定性问题，实现了52%以上的算力利用率。模型训练依托8192张昇腾NPU组成的集群，结合多种并行策略与系统优化，确保高效运行。

原文链接

本文链接：https://kx.umi6.com/article/17191.html

转载请注明文章出处

昇腾集群