
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2024年底,开源模型DeepSeek V3因其6710亿参数逼近顶级闭源模型性能而引发关注。DeepSeek V3仅用278.8万GPU小时完成训练,大幅降低训练成本。然而,业内对其是否真正提供经济实惠的AI发展路径存在争议。质疑者认为其训练前的数据生成和清洗仍需大量算力。DeepSeek V3采用多头潜在注意力(MLA)和混合专家架构(MoE),大幅减少显存占用并实现专家负载均衡。尽管如此,其训练仍需大量GPU小时。乐观者认为DeepSeek V3在推理能力和算法优化方面取得突破,展示了‘乌鸦范式’的可能性,即低功耗、自主推理的AI发展方向。
原文链接
加载更多

暂无内容