标题:DeepSeek公布545%成本利润率
DeepSeek最新发布的DeepSeek-V3/R1推理系统揭示了优化吞吐量和延迟的方法,包括跨节点EP驱动的批量扩展、计算与通信重叠及负载均衡。该系统每个H800节点每秒处理73.7k/14.8k个输入/输出token,成本利润率高达545%。
通过大规模跨节点专家并行(EP),DeepSeek提高了吞吐量并降低了延迟。EP使批处理大小增加,减少了延迟,但也引入了跨节点传输和负载均衡的问题。系统采用双batch重叠技术来掩盖通信开销,提高整体吞吐量。此外,还实现了Prefill和Decode阶段的负载均衡,确保每个GPU的计算和通信负载均衡。
DeepSeekV3和R1服务使用H800 GPU,24小时内峰值占用278个节点,平均226.75个节点。系统在高峰时段全节点运行,在低谷时段减少节点用于研究和训练。24小时内,系统处理了608B输入token,其中56.3%命中KVCache,输出168B token,平均输出速率为20~22tps。平均每台H800的吞吐量为73.7k输入token/s(含缓存命中)和14.8k输出token/s。若按DeepSeek R1的定价计算,理论日收入为$562,027,实际成本利润率为545%。
原文链接
本文链接:https://kx.umi6.com/article/14580.html
转载请注明文章出处
相关推荐
换一换
官方详解 DeepSeek-V3 / R1 推理系统:优化目标是更大吞吐、更低延迟
2025-03-01 13:58:32
官方详解 DeepSeek-V3 / R1 推理系统:优化目标是更大吞吐、更低延迟
2025-03-01 13:58:32
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
2025-05-20 14:38:41
苹果抨击“为AI而AI”:真正有用的AI需以用户为中心
2026-06-09 07:06:40
独家丨华为天才少年王裕鑫创业,首月完成数千万级首轮融资
2026-06-08 12:28:00
AI需求井喷!台积电CEO:数年难以填满芯片缺口
2026-06-04 17:14:24
CVPR 开幕式:全场泪目缅怀孙剑,广工本科生靠「古董显卡」逆袭 | CVPR 2026
2026-06-08 11:22:26
行业景气度走高!SK暂缓出让晶圆厂商SK Siltron
2026-06-04 20:22:35
CVPR 2026现场直击:CV与机器人的物理结界被彻底打破
2026-06-05 19:24:24
CCIG 2026 在广州圆满落幕:4200 余位专家学者共绘图像图形发展新图景
2026-06-04 12:06:45
英博数科亮相CCIG 2026,首次公开EBFlex私有化算力管理平台
2026-06-04 16:10:54
阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一
2026-06-05 14:59:31
大模型看Coding,具身看Picking!原力灵机已抢先入局
2026-06-08 15:31:34
806 文章
691228 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08