华为推出盘古 Ultra,一款参数量135B的密集模型,性能媲美DeepSeek-R1,且训练全程无英伟达硬件参与。该模型在数学、编程等推理任务中表现出色,尤其在MMLU、TriviaQA等数据集上超越Llama 405B、DeepSeek-V3等模型。盘古 Ultra 采用创新的“三明治”层归一化架构及TinyInit初始化策略,解决了深层网络训练中的稳定性问题,实现了52%以上的算力利用率。模型训练依托8192张昇腾NPU组成的集群,结合多种并行策略与系统优化,确保高效运行。
原文链接
本文链接:https://kx.umi6.com/article/17191.html
转载请注明文章出处
相关推荐
.png)
换一换
8个月晋升独角兽,欧洲版Cursor估值18亿美元
2025-07-18 17:42:11
人工智能安全监管制度建设座谈会召开
2025-07-18 17:44:38
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
2025-07-18 17:42:26
459 文章
84362 浏览
24小时热文
更多

-
2025-07-20 16:05:44
-
2025-07-20 16:05:36
-
2025-07-20 15:10:23