1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

华为推出盘古 Ultra,一款参数量135B的密集模型,性能媲美DeepSeek-R1,且训练全程无英伟达硬件参与。该模型在数学、编程等推理任务中表现出色,尤其在MMLU、TriviaQA等数据集上超越Llama 405B、DeepSeek-V3等模型。盘古 Ultra 采用创新的“三明治”层归一化架构及TinyInit初始化策略,解决了深层网络训练中的稳定性问题,实现了52%以上的算力利用率。模型训练依托8192张昇腾NPU组成的集群,结合多种并行策略与系统优化,确保高效运行。

原文链接
本文链接:https://kx.umi6.com/article/17191.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
2024-11-22 14:02:04
谷歌云AI使用量达到每分钟160亿Tokens
2026-04-22 21:29:40
知情人士:华为云码道代码智能体日活增长18倍 本周上线Skill市场
2026-04-22 19:24:53
公募基金一季度加仓科技制造 减持信息技术和金融板块
2026-04-23 07:54:20
中信证券:预计二季度AI行情开始发散 建议关注被动元件、消费电子等细分板块
2026-04-24 09:04:28
广东:推动脑机接口和具身智能等人工智能前沿技术的融合
2026-04-22 17:25:47
打击P图恶意骗退款!淘宝天猫上线售后AI假图识别模型
2026-04-23 19:25:25
北京备案大模型达225款 占全国总量约三成
2026-04-22 20:27:12
中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026
2026-04-22 16:18:49
国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家
2026-04-23 23:33:29
Deepseek官网公布deepseek-v4接口文档
2026-04-24 11:10:00
特斯拉:Cortex 2算力集群现已上线 并已开始运行训练任务
2026-04-23 08:58:08
小鹏集团董事长:正与海外企业洽谈合作 并计划在境外新建工厂
2026-04-24 14:18:50
24小时热文
更多
扫一扫体验小程序