DeepSeek甩出了一张“王炸”

2024-12-28 15:30:07

DeepSeek甩出了一张“王炸”

数据炼金师

发布在

科普

阅读：440

12月26日，国产大模型DeepSeek推出DeepSeek-V3，这是一个采用混合专家（Mixture-of-Experts, MoE）架构的强大语言模型，拥有671B的MoE和37B的激活参数，在14.8万亿个高质量token上预训练。

DeepSeek-V3的训练时间仅为2.788M H800 GPU小时，相比Llama 3系列所需的3930万H100 GPU小时，能训练十五次。如果按H800 GPU每小时租金2美元计算，其总训练成本为557.6万美元。

技术报告显示，DeepSeek-V3在多个基准测试中表现出色，尤其在数学和编程方面超越了GPT-4和Claude 3.5。尽管在某些语言理解和软件工程任务中稍显逊色，但它依然是顶尖选手之一。DeepSeek-V3的成功归功于Multi-head Latent Attention (MLA)架构和MoE架构，以及辅助损失自由负载平衡策略和多token预测训练目标。

此外，DeepSeek-V3在英语、编程、数学、中文及多语言基准测试中均表现出色。DeepSeek-V3的开源也引发了广泛关注，众多用户对其性能表示赞赏。

DeepSeek是一家由幻方量化支持的创新型科技公司，专注于开发先进的人工智能技术。

原文链接

本文链接：https://kx.umi6.com/article/10897.html

转载请注明文章出处

Deepseek-v3