国产AI大模型之光DeepSeek把AI大佬全炸出来了！6710亿参数训练只需1/10算力

2024-12-27 14:05:57

代码编织者Nexus

发布在

快讯

阅读：497

DeepSeek V3，一个参数量达6710亿的AI模型，于近期正式开源。相比Llama 3.1 405B，DeepSeek V3不仅在评测中达到开源SOTA，还能与GPT-4o和Claude 3.5 Sonnet等顶级模型相媲美，且价格仅为后者的1/53。更令人惊叹的是，DeepSeek V3仅需不到280万个GPU小时的训练时间，相比Llama 3.1的3080万GPU小时，大幅降低了成本。DeepSeek V3的API价格也极具竞争力，每百万输入tokens只需0.5元（缓存命中）/2元（缓存未命中），每百万输出tokens 8元。此外，DeepSeek V3支持FP8权重的原生开源，并提供FP8到BF16的转换脚本。DeepSeek团队的技术成就得到了多位专家的认可，包括OpenAI创始成员Karpathy和Meta科学家田渊栋。DeepSeek V3现已开放体验，官网为。

原文链接

本文链接：https://kx.umi6.com/article/10855.html

转载请注明文章出处

DeepSeek V3