华为推出盘古 Ultra,一款参数量135B的密集模型,性能媲美DeepSeek-R1,且训练全程无英伟达硬件参与。该模型在数学、编程等推理任务中表现出色,尤其在MMLU、TriviaQA等数据集上超越Llama 405B、DeepSeek-V3等模型。盘古 Ultra 采用创新的“三明治”层归一化架构及TinyInit初始化策略,解决了深层网络训练中的稳定性问题,实现了52%以上的算力利用率。模型训练依托8192张昇腾NPU组成的集群,结合多种并行策略与系统优化,确保高效运行。
原文链接
本文链接:https://kx.umi6.com/article/17191.html
转载请注明文章出处
相关推荐
换一换
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
2024-11-22 14:02:04
智启新程 生态同行:2026高通汽车技术与合作峰会展现AI汽车新图景
2026-06-05 19:20:05
OpenAI芯片核心叛逃Anthropic!就在量产前夜
2026-06-07 20:48:02
AI掏空存储产能!美国九大行业联合请愿扩产芯片
2026-06-04 23:27:38
Hinton吹哨了:AI已经有意识!
2026-06-06 15:51:41
行业景气度走高!SK暂缓出让晶圆厂商SK Siltron
2026-06-04 20:22:35
高德发布ABot-Earth0.5:跨越2D蒸馏模式,以3D原生驱动高一致性场景生成
2026-06-08 17:40:19
NUS 余浩泳教授:外骨骼的轻量化与任务感知丨ICRA 2026
2026-06-03 17:35:24
覆盖20多个垂直场景Agent!腾讯首发效率智能体工具集
2026-06-05 17:08:27
扣子3.0实测:手机就能远程遥控你电脑里的Agent
2026-06-04 09:58:01
有余凯不投的地平线离职创业员工吗?
2026-06-07 21:50:41
微信闷声赚麻了
2026-06-03 17:33:35
造谣小米员工破坏展车、AI伪造事故视频!两名网络用户公开道歉
2026-06-08 18:42:21
758 文章
716808 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08