华为推出盘古 Ultra,一款参数量135B的密集模型,性能媲美DeepSeek-R1,且训练全程无英伟达硬件参与。该模型在数学、编程等推理任务中表现出色,尤其在MMLU、TriviaQA等数据集上超越Llama 405B、DeepSeek-V3等模型。盘古 Ultra 采用创新的“三明治”层归一化架构及TinyInit初始化策略,解决了深层网络训练中的稳定性问题,实现了52%以上的算力利用率。模型训练依托8192张昇腾NPU组成的集群,结合多种并行策略与系统优化,确保高效运行。
原文链接
本文链接:https://kx.umi6.com/article/17191.html
转载请注明文章出处
相关推荐
.png)
换一换
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
2024-11-22 14:02:04
英伟达含量为零:华为密集模型盘古 Ultra 性能比肩 DeepSeek-R1,纯昇腾集群训练
2025-04-15 12:30:55
AI生成苹果Metal内核,PyTorch推理速度提升87%
2025-09-05 11:17:03
不寒而栗!AI克隆盗用别人声音 去卖不可描述保健品
2025-09-05 17:23:07
智谱打响中场战事
2025-09-06 06:30:37
参数量 1T,阿里官方介绍“通义最强语言模型”Qwen3-Max-Preview
2025-09-07 00:40:01
腾讯大笔资金加码AI 曝一业务关停 相关视频号已被注销 官网显示“当前服务升级维护中”
2025-09-05 12:21:09
人形机器人学会用洗碗机,Figure 放出最新演示
2025-09-04 22:09:37
OpenAI 明年杀入招聘市场,将帮助具备 AI 技能的人才找到工作
2025-09-05 16:21:28
新华三集团与重庆水务环境集团签订战略合作协议
2025-09-06 10:33:40
无惧AI竞赛落后?华尔街评论员:苹果仅凭生态就握有“王牌”
2025-09-04 22:10:45
钉钉与英特尔,共享同一种革命
2025-09-05 14:20:06
华为AI模型运行专利公布
2025-09-05 15:25:04
515 文章
203232 浏览
24小时热文
更多

-
2025-09-07 16:47:03
-
2025-09-07 15:46:08
-
2025-09-07 14:45:54