1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

这可能是海外对DeepSeek最全面的分析报告,来自知名半导体研究机构Semianalysis。报告揭示了DeepSeek的MLA模式如何大幅降低训练成本,其R1和o1模型的性能对比,以及顶尖人才的人均年薪达千万。目前,DeepSeek的成本估算被质疑,推测其拥有约5万块Hopper GPU。

图灵奖得主杨立昆批评了硅谷某些圈子的偏见,强调科技需更多人才参与共享创新。报告指出DeepSeek开源模型体现了这种愿景。报告链接为https://semianalysis.com/2025/01/31/deepseek-debates/

关键要点: - DeepSeek估计拥有5万块Hopper GPU,GPU总投资超5亿美元。 - 600万美元成本仅指预训练GPU费用,非总成本。 - DeepSeek团队约150人,年薪可达千万。 - MLA降低推理成本,减少93.3%的KV缓存。 - R1与o1性能相当,o3性能更优。

DeepSeek已成为全球热议话题,日活超1900万。幻方量化是其前身,现已剥离专注AI。他们拥有约50000个Hopper GPU,其中10000个为H800,10000个为H100。总投资超5亿美元,服务器支出16亿美元。

DeepSeek吸引顶尖人才,年薪近千万,从中国高校招聘。团队约150人,迅速扩张。他们自建数据中心,不依赖外部方。DeepSeek被认为是最佳开源权重实验室。

DeepSeek的低成本被误解,实际硬件支出远超5亿美元。MLA是其关键创新,耗时数月开发。DeepSeek在推理性能上实现显著改进,成本大幅降低。

R1迅速追上o1,得益于推理能力的新范式。较低门槛和优化使其快速复制o1方法。R1在多项基准测试中表现不一,o3性能更优。

原文链接
本文链接:https://kx.umi6.com/article/12481.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
好险,差点被DeepSeek幻觉害死
2025-07-09 15:08:10
人民呼唤DeepSeek!
2025-07-16 12:02:16
DeepSeek降本秘诀曝光:2招极致压榨推理部署,算力全留给内部
2025-07-04 15:46:17
24小时热文
更多
扫一扫体验小程序