标题:DeepSeek公布545%成本利润率
DeepSeek最新发布的DeepSeek-V3/R1推理系统揭示了优化吞吐量和延迟的方法,包括跨节点EP驱动的批量扩展、计算与通信重叠及负载均衡。该系统每个H800节点每秒处理73.7k/14.8k个输入/输出token,成本利润率高达545%。
通过大规模跨节点专家并行(EP),DeepSeek提高了吞吐量并降低了延迟。EP使批处理大小增加,减少了延迟,但也引入了跨节点传输和负载均衡的问题。系统采用双batch重叠技术来掩盖通信开销,提高整体吞吐量。此外,还实现了Prefill和Decode阶段的负载均衡,确保每个GPU的计算和通信负载均衡。
DeepSeekV3和R1服务使用H800 GPU,24小时内峰值占用278个节点,平均226.75个节点。系统在高峰时段全节点运行,在低谷时段减少节点用于研究和训练。24小时内,系统处理了608B输入token,其中56.3%命中KVCache,输出168B token,平均输出速率为20~22tps。平均每台H800的吞吐量为73.7k输入token/s(含缓存命中)和14.8k输出token/s。若按DeepSeek R1的定价计算,理论日收入为$562,027,实际成本利润率为545%。
原文链接
本文链接:https://kx.umi6.com/article/14580.html
转载请注明文章出处
相关推荐
.png)
换一换
官方详解 DeepSeek-V3 / R1 推理系统:优化目标是更大吞吐、更低延迟
2025-03-01 13:58:32
DeepSeek突袭公布成本利润率:545%
2025-03-01 14:57:43
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
2025-05-20 14:38:41
OpenAI宣布推出AI在线招聘平台,和微软的领英打起来了
2025-09-05 10:16:42
中国电科王平:国内半导体装备已进入“战国时代”
2025-09-05 21:27:41
联想发布全球首款AI电脑支架:集成追踪、语音与手势控制
2025-09-05 15:21:36
国内首个AI计算开放架构发布
2025-09-06 14:35:37
项目开发调试周期缩短至8小时 行业首个智能仓储AI大脑发布
2025-09-07 13:45:23
OpenAI 明年杀入招聘市场,将帮助具备 AI 技能的人才找到工作
2025-09-05 16:21:28
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此
2025-09-06 12:37:03
AI如何让获客成本直降80%,利润翻三倍?
2025-09-05 14:21:15
OpenAI 研究人员宣称已破解模型“幻觉”难题:现有评估方式在鼓励 AI“瞎蒙”
2025-09-06 16:36:08
中泰证券:第三季度有望迎来医疗器械板块阶段性拐点
2025-09-05 08:17:22
531 文章
175190 浏览
24小时热文
更多

-
2025-09-07 21:49:50
-
2025-09-07 20:50:36
-
2025-09-07 20:49:25