1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:深度解析:DeepSeek-V3的训练过程

近日,DeepSeek-V3低调发布,凭借500万美元的成本,其性能媲美Claude 3.5,并已开源。

性能

DeepSeek-V3在多项基准测试中表现出色,尤其在高级数学推理能力方面超越其他模型。它在BBH、MMLU系列、DROP、HumanEval等任务上均取得最佳成绩,成本仅需约550万美元。

架构

DeepSeek-V3引入了Multi-head Latent Attention (MLA)、DeepSeekMoE架构及无额外损耗的负载均衡策略,显著提升了模型的计算效率和扩展能力。

工程

DeepSeek-V3采用DualPipe流水线并行策略,减少了流水线气泡,提高了GPU利用率。此外,通过节点限制路由、定制化All-to-All通信内核等优化,有效降低了通信开销。

预训练

DeepSeek-V3的预训练语料库达14.8万亿Token,涵盖数学、编程、多语言数据,以增强模型的推理能力和多语言处理能力。采用基于字节级BPE的分词器,构建128K词汇表,提升压缩效率。

后训练

后训练包括有监督微调(SFT)和强化学习(RL)。SFT阶段使用高质量数据集进行微调,RL阶段采用基于规则和基于模型的奖励机制,提升模型对人类偏好的对齐能力。

原文链接
本文链接:https://kx.umi6.com/article/11002.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
梁文锋等发表DeepSeek V3回顾性论文
2025-05-16 17:08:55
AMD:已将新的DeepSeek-V3模型集成到Instinct MI300X GPU上
2025-01-25 18:04:42
Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet
2024-12-26 14:33:17
算力门槛下降是一连串事件
2025-01-07 21:14:28
DeepSeek 官方详解 V3 模型小版本升级:各项能力全面进阶
2025-03-25 22:18:23
大模型性价比之王来了!训练2个月、花费558万美元 性能匹敌GPT-4o
2024-12-27 14:07:00
爆火的DeepSeek-V3强在哪?
2024-12-29 15:55:20
DeepSeek-V3低调发布后 业内震惊之余再次怀疑硅谷模式
2025-03-25 12:55:22
英伟达的最大空头出现了
2024-12-31 15:46:07
DeepSeek-V3横空出世,浙江私募力量震惊硅谷
2025-01-18 19:38:08
DeepSeek预示算力需求“打骨折”?业界:别只盯着训练 AI行业进入推理时代
2024-12-30 09:15:53
DeepSeek又更新了!化身更强AI设计师、程序员 比肩全球最强代码生成器?
2025-03-25 09:48:08
商汤大装置上架DeepSeek系列模型
2025-02-08 19:34:28
24小时热文
更多
扫一扫体验小程序