标题:省钱也是技术活:解密DeepSeek的极致压榨术
DeepSeek-V3以557.6万美元预算,在2048个H800 GPU集群上,仅用3.7天/万亿tokens的训练时间,达到与顶级模型比肩的性能。每万亿tokens仅需180K个H800 GPU小时,总计278万GPU小时。
通过671B参数量,DeepSeek-V3用14.8万亿高质量多样化token构建出超越所有开源模型的AI系统。OpenAI早期成员Andrej Karpathy和Scale AI创始人Alexander Wang对此表示赞赏。
DeepSeek-V3的秘诀在于压缩、并行和提升硬件使用效率。压缩方面,采用MLA多层注意力架构和FP8混合精度训练,大幅减少内存占用和计算量。MLA通过动态合并相邻层特征减少计算量,FP8则用低精度换取效率,同时保留关键精度。
并行方面,DeepSeek-V3使用DualPipe跨节点通信,优化计算与通信重叠,减少50%的计算气泡,提升带宽利用率,减少20%的通信开销。此外,无辅助损失的负载均衡策略和底层通信优化也显著提升了训练效率。
数据处理方面,DeepSeek-V3采用多元化数据策略,严格筛选和清洗数据,优化数据使用效率。架构革新中,MTP技术使模型能同时预测多个token,提升训练和推理效率。R1蒸馏技术则增强了模型的编程和数学能力。
尽管存在质疑,DeepSeek-V3展示了工程创新的价值。它在效率和性能之间找到平衡,推动AI技术的实际应用。
原文链接
本文链接:https://kx.umi6.com/article/12072.html
转载请注明文章出处
相关推荐
换一换
Anthropic 新旗舰 AI 模型 Claude 3.7 Sonnet 训练成本曝光:仅数千万美元
2025-02-26 15:36:38
首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开“降成本”秘诀
2025-05-16 14:52:41
国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开
2024-12-27 13:01:10
阿里通义灵码新增支持 DeepSeek-V3 / R1 模型,降低 AI 编程门槛
2025-02-13 17:20:53
DeepSeek甩出了一张“王炸”
2024-12-28 15:30:07
DeepSeek-V3首个版本上线
2024-12-27 08:58:12
AMD:已将新的DeepSeek-V3模型集成到Instinct MI300X GPU上
2025-01-25 18:04:42
OpenAI科学家盛赞中国大模型:算法非常强,算力用到极致!
2024-12-31 10:39:20
梁文锋等发表DeepSeek V3回顾性论文
2025-05-16 17:08:55
深度拆解:DeepSeek-V3是怎么训练的
2024-12-30 21:30:52
国产大模型 DeepSeek-V3 开源:6710 亿参数自研 MoE,性能和 GPT-4o 不分伯仲
2024-12-27 08:55:04
DeepSeek-V3 模型完成小版本升级,已可试用体验
2025-03-24 22:18:43
字节对MoE模型训练成本再砍一刀 成本可节省40%
2025-03-10 17:52:30
633 文章
422453 浏览
24小时热文
更多
-
2026-01-23 00:20:44 -
2026-01-22 23:18:34 -
2026-01-22 23:17:29