乌鸦范式 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek V3 引发AI路径之辩：从“鹦鹉学舌”到“乌鸦喝水”？

2024年底，开源模型DeepSeek V3因其6710亿参数逼近顶级闭源模型性能而引发关注。DeepSeek V3仅用278.8万GPU小时完成训练，大幅降低训练成本。然而，业内对其是否真正提供经济实惠的AI发展路径存在争议。质疑者认为其训练前的数据生成和清洗仍需大量算力。DeepSeek V3采用多头潜在注意力(MLA)和混合专家架构(MoE)，大幅减少显存占用并实现专家负载均衡。尽管如此，其训练仍需大量GPU小时。乐观者认为DeepSeek V3在推理能力和算法优化方面取得突破，展示了‘乌鸦范式’的可能性，即低功耗、自主推理的AI发展方向。

原文链接