大模型降本 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

梁文锋署名DeepSeek新论文：公开V3大模型降本方法

梁文锋署名DeepSeek新论文：公开V3大模型降本方法梁文锋亲自参与的DeepSeek最新论文发布，团队分享了DeepSeek-V3在训练和推理中突破“硬件瓶颈”的四大核心技术。 DeepSeek-V3仅用2048块H800显卡就达到超大规模集群的训练效果，关键在于四项创新：内存优化、计算优化、通信优化及推理加速。内存优化采用多头潜在注意力（MLA），将键值对压缩为潜在向量，大幅减少KV缓存占用。计算优化结合混合专家模型（MoE）和FP8低精度训练，每次仅激活部分参数，训练成本仅为传统稠密模型的1/10。通信优化引入多层胖树网络，降低延迟并支持大规模扩展。推理加速通过多token预测（MTP）提升生成速度。此外，论文还展望了下一代AI硬件的发展方向，包括低精度计算支持、扩展融合、网络拓扑优化、内存系统升级及增强鲁棒性。这些设想旨在推动硬件从“被动适配”走向“主动设计”。

原文链接