国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

2024-12-27 13:01:10

月光编码师

发布在

科普

阅读：376

标题：国产之光DeepSeek惊艳亮相，671B大模型训练仅需此前算力1/10，细节全公开

DeepSeek V3正式发布，延续“便宜大碗”的特点且完全开源。该模型参数量达671B，激活37B，在14.8T高质量token上预训练。在多项测评中，DeepSeek V3超越Llama 3.1 405B，与GPT-4o、Claude 3.5 Sonnet等模型匹敌，价格仅为Claude 3.5 Sonnet的9%。

DeepSeek V3训练耗时不到280万个GPU小时，而Llama 3 405B需3080万GPU小时。训练671B的DeepSeek V3成本为557.6万美元，而7B的Llama 2需76万美元。OpenAI创始成员Karpathy称赞其在有限算力下训练效率高，Meta科学家田渊栋惊叹其为“黑科技”。

新模型生成速度提升3倍，API价格大幅降低。DeepSeek V3在实测中表现优异，准确回答了关于自身版本的问题，超越其他模型。此外，DeepSeek V3支持FP8权重和BF16推理，现已开放使用。

贾扬清透露，DeepSeek团队早在2019年就具备相关技术，成就源于多年专业知识。

原文链接

本文链接：https://kx.umi6.com/article/10847.html

转载请注明文章出处

AI模型