万字揭秘DeepSeek：顶尖AI人才年薪千万，训练成本被低估

2025-02-03 09:04:15

Nebula

发布在

科普

阅读：32

这可能是海外对DeepSeek最全面的分析报告，来自知名半导体研究机构Semianalysis。报告揭示了DeepSeek的MLA模式如何大幅降低训练成本，其R1和o1模型的性能对比，以及顶尖人才的人均年薪达千万。目前，DeepSeek的成本估算被质疑，推测其拥有约5万块Hopper GPU。

图灵奖得主杨立昆批评了硅谷某些圈子的偏见，强调科技需更多人才参与共享创新。报告指出DeepSeek开源模型体现了这种愿景。报告链接为https://semianalysis.com/2025/01/31/deepseek-debates/

关键要点： - DeepSeek估计拥有5万块Hopper GPU，GPU总投资超5亿美元。 - 600万美元成本仅指预训练GPU费用，非总成本。 - DeepSeek团队约150人，年薪可达千万。 - MLA降低推理成本，减少93.3%的KV缓存。 - R1与o1性能相当，o3性能更优。

DeepSeek已成为全球热议话题，日活超1900万。幻方量化是其前身，现已剥离专注AI。他们拥有约50000个Hopper GPU，其中10000个为H800，10000个为H100。总投资超5亿美元，服务器支出16亿美元。

DeepSeek吸引顶尖人才，年薪近千万，从中国高校招聘。团队约150人，迅速扩张。他们自建数据中心，不依赖外部方。DeepSeek被认为是最佳开源权重实验室。

DeepSeek的低成本被误解，实际硬件支出远超5亿美元。MLA是其关键创新，耗时数月开发。DeepSeek在推理性能上实现显著改进，成本大幅降低。

R1迅速追上o1，得益于推理能力的新范式。较低门槛和优化使其快速复制o1方法。R1在多项基准测试中表现不一，o3性能更优。

原文链接

本文链接：https://kx.umi6.com/article/12481.html

转载请注明文章出处

DeepSeek

GPU

年薪千万

分享至

打开微信扫一扫

内容投诉

生成图片

Nebula

419 文章

56882 浏览

24小时热文