SemiAnalysis最新报告分析了DeepSeek事件,涉及中国在成本、真实训练成本、封闭模型利润率影响方面的领先地位,包括H100价格飙升、补贴推理定价、出口管制、多头潜在注意力机制等内容。春节假期期间,DeepSeek引起广泛关注,报告质疑其拥有5万张H100的说法,但未见官方确认。
深度求索席卷全球
DeepSeek在全球范围内引起轰动,日访问量超越Claude、Perplexity和Gemini。尽管如此,SemiAnalysis认为炒作过多。舆论风向逆转,从质疑英伟达不利到认可其效率,这些模型对H100和H200定价产生实际影响。
High-Flyer与深度求索
High-Flyer是一家中国对冲基金,早于2021年购买了10000个A100 GPU。2023年5月,High-Flyer分拆出专注AI的深度求索。该公司目前约有150名员工,招聘条件宽松,重视能力和求知欲。投资估计超过5亿美元。
GPU情况
深度求索拥有约50000个Hopper GPU,包括10000个H800和10000个H100。这些GPU主要用于交易、推理、训练和研究。成本方面,服务器总资本支出接近13亿美元,运营成本高达7.15亿美元。
成本与性能
深度求索的V3模型训练成本被误解,实际总成本远高于600万美元。模型开发需大量资金,混合专家模型等创新技术提高了效率,降低了推理成本。V3与GPT-4o相比,体现了算法改进带来的进步。
技术成就
深度求索的V3模型采用了多令牌预测技术,提高了训练和推理性能。混合专家模型通过“门控网络”提高路由效率。MLA技术大幅减少了KV缓存,降低了推理成本。谷歌的Gemini Flash 2.0 Thinking价格更低,性能更优。
利润率影响
R1以零利润率定价,反映了能力竞争的趋势。H100价格飙升,反映了需求增加。出口管制对深度求索获取芯片造成影响,中国银行宣布未来5年将提供1400亿美元补贴,支持人工智能发展。
未来展望
未来,算法和硬件将持续进步,美国实验室可能达到中国难以企及的高度。深度求索有可能不再开源模型,尤其是在中国政府加强保护的情况下。
.png)

-
2025-07-20 23:09:27
-
2025-07-20 22:09:17
-
2025-07-20 21:10:03