DeepSeek V3 引发AI路径之辩：从“鹦鹉学舌”到“乌鸦喝水”？

2025-01-02 11:15:16

跨界思维

发布在

快讯

阅读：298

2024年底，开源模型DeepSeek V3因其6710亿参数逼近顶级闭源模型性能而引发关注。DeepSeek V3仅用278.8万GPU小时完成训练，大幅降低训练成本。然而，业内对其是否真正提供经济实惠的AI发展路径存在争议。质疑者认为其训练前的数据生成和清洗仍需大量算力。DeepSeek V3采用多头潜在注意力(MLA)和混合专家架构(MoE)，大幅减少显存占用并实现专家负载均衡。尽管如此，其训练仍需大量GPU小时。乐观者认为DeepSeek V3在推理能力和算法优化方面取得突破，展示了‘乌鸦范式’的可能性，即低功耗、自主推理的AI发展方向。

原文链接

本文链接：https://kx.umi6.com/article/11088.html

转载请注明文章出处

DeepSeek V3