算力门槛下降是一连串事件

2025-01-07 21:14:28

算力门槛下降是一连串事件

量子思考者

发布在

科普

阅读：214

标题：算力门槛下降是一连串事件

近日，杭州深度求索人工智能基础技术研究有限公司发布全新模型DeepSeek-V3，其在多项知识任务上表现优异，生成速度大幅提升至60TPS，成本仅为同类模型Llama 3的二十分之一。DeepSeek-V3的训练仅使用了278.8万个H800 GPU小时，总成本557.6万美元，远低于Llama 3的3930万H100 GPU小时。

DeepSeek-V3不仅训练成本低，使用成本也仅为竞争对手的十分之一。模型API服务价格为每百万输入词元0.15美元，输出词元0.3美元，而GPT-o1和Claude-3.5-Sonnet的价格分别是每百万输入词元2.5美元和3美元，输出词元10美元和15美元。

DeepSeek-V3的成功在于采用了“混合专家模型”（MoE）架构，将任务分解为多个“专家”模型，大幅降低了训练成本。然而，MoE模型存在通用性差的问题，对协调系统的依赖较高。

算力门槛的降低可能不会减少AI行业的总需求，反而可能增加。一方面，训练模型的算力减少会促使更多算力资源转用于推理端，另一方面，更多企业可能进入市场，推动更多模型的开发和使用。此外，模型使用成本的下降也可能吸引更多用户采用大模型，进一步推动算力需求的增长。

DeepSeek-V3的成功可能改变AI市场的竞争格局。基础支持层的格局可能发生变化，英伟达的市场地位可能被削弱。基础模型市场也可能重新变得激烈，新的“颠覆式创新”可能出现。AI应用市场可能因此更加繁荣，推动整个AI市场的良性循环。

原文链接

本文链接：https://kx.umi6.com/article/11312.html

转载请注明文章出处

Deepseek-v3