标题:省钱也是技术活:解密DeepSeek的极致压榨术
DeepSeek-V3以557.6万美元预算,在2048个H800 GPU集群上,仅用3.7天/万亿tokens的训练时间,达到与顶级模型比肩的性能。每万亿tokens仅需180K个H800 GPU小时,总计278万GPU小时。
通过671B参数量,DeepSeek-V3用14.8万亿高质量多样化token构建出超越所有开源模型的AI系统。OpenAI早期成员Andrej Karpathy和Scale AI创始人Alexander Wang对此表示赞赏。
DeepSeek-V3的秘诀在于压缩、并行和提升硬件使用效率。压缩方面,采用MLA多层注意力架构和FP8混合精度训练,大幅减少内存占用和计算量。MLA通过动态合并相邻层特征减少计算量,FP8则用低精度换取效率,同时保留关键精度。
并行方面,DeepSeek-V3使用DualPipe跨节点通信,优化计算与通信重叠,减少50%的计算气泡,提升带宽利用率,减少20%的通信开销。此外,无辅助损失的负载均衡策略和底层通信优化也显著提升了训练效率。
数据处理方面,DeepSeek-V3采用多元化数据策略,严格筛选和清洗数据,优化数据使用效率。架构革新中,MTP技术使模型能同时预测多个token,提升训练和推理效率。R1蒸馏技术则增强了模型的编程和数学能力。
尽管存在质疑,DeepSeek-V3展示了工程创新的价值。它在效率和性能之间找到平衡,推动AI技术的实际应用。
原文链接
本文链接:https://kx.umi6.com/article/12072.html
转载请注明文章出处
相关推荐
.png)
换一换
百度智能云宣布上线DeepSeek-R1/V3
2025-02-03 20:16:14
DeepSeek 官方详解 V3 模型小版本升级:各项能力全面进阶
2025-03-25 22:18:23
DeepSeek全尺寸模型上线阿里云百炼
2025-02-09 14:48:13
DeepSeek V3小版本大升级:推理、前端开发加强 这些能力超越GPT-4.5
2025-03-25 23:20:38
DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑
2025-05-05 09:34:07
省钱也是技术活:解密DeepSeek的极致压榨术
2025-01-23 16:22:07
DeepSeek-V3横空出世,浙江私募力量震惊硅谷
2025-01-18 19:38:08
免费的「网页版Cursor」!新版DeepSeek-V3加持,秒秒钟编出APP
2025-04-01 13:26:23
英伟达的最大空头出现了
2024-12-31 15:46:07
DeepSeek预示算力需求“打骨折”?业界:别只盯着训练 AI行业进入推理时代
2024-12-30 09:15:53
DeepSeek-V3:美国芯片封锁的“意外”产物?
2025-01-06 10:21:20
DeepSeek又更新了!化身更强AI设计师、程序员 比肩全球最强代码生成器?
2025-03-25 09:48:08
中国大模型数量占全球超1/3;AI模型训练成本暴涨,2027年或达1000亿美元;Kimi发布官方浏览器插件丨AI情报局
2024-07-09 13:41:20
493 文章
163356 浏览
24小时热文
更多

-
2025-09-06 22:39:24
-
2025-09-06 21:38:26
-
2025-09-06 20:38:03