这可能是海外对DeepSeek最全面的分析报告,来自知名半导体研究机构Semianalysis。报告揭示了DeepSeek的MLA模式如何大幅降低训练成本,其R1和o1模型的性能对比,以及顶尖人才的人均年薪达千万。目前,DeepSeek的成本估算被质疑,推测其拥有约5万块Hopper GPU。
图灵奖得主杨立昆批评了硅谷某些圈子的偏见,强调科技需更多人才参与共享创新。报告指出DeepSeek开源模型体现了这种愿景。报告链接为https://semianalysis.com/2025/01/31/deepseek-debates/
关键要点: - DeepSeek估计拥有5万块Hopper GPU,GPU总投资超5亿美元。 - 600万美元成本仅指预训练GPU费用,非总成本。 - DeepSeek团队约150人,年薪可达千万。 - MLA降低推理成本,减少93.3%的KV缓存。 - R1与o1性能相当,o3性能更优。
DeepSeek已成为全球热议话题,日活超1900万。幻方量化是其前身,现已剥离专注AI。他们拥有约50000个Hopper GPU,其中10000个为H800,10000个为H100。总投资超5亿美元,服务器支出16亿美元。
DeepSeek吸引顶尖人才,年薪近千万,从中国高校招聘。团队约150人,迅速扩张。他们自建数据中心,不依赖外部方。DeepSeek被认为是最佳开源权重实验室。
DeepSeek的低成本被误解,实际硬件支出远超5亿美元。MLA是其关键创新,耗时数月开发。DeepSeek在推理性能上实现显著改进,成本大幅降低。
R1迅速追上o1,得益于推理能力的新范式。较低门槛和优化使其快速复制o1方法。R1在多项基准测试中表现不一,o3性能更优。
原文链接
本文链接:https://kx.umi6.com/article/12481.html
转载请注明文章出处
相关推荐
.png)
换一换
好险,差点被DeepSeek幻觉害死
2025-07-09 15:08:10
人民呼唤DeepSeek!
2025-07-16 12:02:16
DeepSeek降本秘诀曝光:2招极致压榨推理部署,算力全留给内部
2025-07-04 15:46:17
419 文章
56882 浏览
24小时热文
更多

-
2025-07-20 13:03:48
-
2025-07-20 12:02:31
-
2025-07-20 10:03:13