周末,DeepSeek又放大招,首(shou)次披露大模型(xing)的盈利情(qing)况(kuang),引爆投资圈。
理论(lun)利润率达545%
3月1日,DeepSeek发文披露了大规模V3、R1部署的成本和收益,成为了第(di)一个详细披露了自己成本结构(gou)的大模型(xing)企业(si)。
据DeepSeek计算,运营一天V3和R1的算力(li)成本为87072美金,而(er)以R1定价来看(kan),收入理论(lun)上为562027美金,利润率为545%。
据先容,DeepSeek V3和R1的所有服务均使用H800 GPU,使用和训练一致的精(jing)度。
由于白天的服务负荷高,晚上的服务负荷低,因此DeepSeek实现了一套机制。在白天负荷高的时候,用所有节点部署推理服务。晚上负荷低的时候,减少推理节点,以用来做研究和训练。
在2025年02月27日12:00至2025年02月28日12:00,DeepSeek V3和R1推理服务占用节点总和,峰(feng)值占用为278个节点,平均占用226.75个节点(每个节点为8个H800 GPU)。假定 GPU 租赁(lin)成本为2美金(jin)/小时,总成本为87,072美金/天。
在24小时统计时段内,DeepSeek V3和 R1的网(wang)页、APP和API的所有负载如(ru)下:
输入token总数(shu)为608B,其中 342B tokens(56.3%)命中KVCache硬盘缓存。输出 token总数(shu)为168B。平均输出速率为20~22tps,平均每输出一个token的KVCache长度是4989。
平均每台H800的吞吐量为:对于prefill任务,输入吞吐约73.7k tokens/s(含缓存命中);对于decode任务,输出吞吐约14.8k tokens/s。
输出 token总数(shu)为168B。平均输出速率为20~22tps,平均每输出一个token的KVCache长度是4989。
平均每台H800的吞吐量为:对于prefill任务,输入吞吐约73.7k tokens/s(含缓存命中);对于decode任务,输出吞吐约14.8k tokens/s。
如(ru)果所有tokens全部按照DeepSeek R1的定价计算,理论(lun)上一天的总收入为562,027美金(折合人民币409.36万元),成本利润率545%。
以此计算,DeepSeek理论(lun)上最(zui)高每天可盈利47. 5万美金(折合人民币约346万元)。
不过,DeepSeek也表示(shi),实际上没有这么(me)多收入,因为V3的定价更低,同时收费服务只占了一部分,另外夜间还会(hui)有折扣。
巨大的盈利下,有投资人开始按计算器,称(cheng)其在美国应(ying)该是一家(jia)估值超百亿美金的企业(si)。
MenloVentures投资人Deedy表示(shi):“理论(lun)ARR(年收入)2亿美金、利润率超过500%,这样的商业效(xiao)率理应(ying)是一家(jia)值100亿美金的企业(si)。”
有网(wang)友(you)评论(lun),DeepSeek掀起了行业新(xin)一轮卷Infra热潮。
DeepSeek官方直接披露内部的成本利润细节,这下所有做Infra的兄(xiong)弟都要被老板(ban)上压力(li)了——如(ru)果利润率达不到DeepSeek的水平,就说明自家(jia)的Infra团队菜。
上周,DeepSeek进行了开源周,连(lian)续放了5天Infra相关的库。
第(di)一天,开源项(xiang)目 FlashMLA 正式发布,专为Hopper GPU优化的高效(xiao)MLA解码内核(he),支(zhi)持变长序列处理。
第(di)二天,DeepEP发布,DeepEP是一个专为混合专家(jia)系统(MoE)和专家(jia)并行(EP)设计的通(tong)信库。
第(di)三天,DeepGEMM发布,DeepGEMM 是一个专为简洁高效(xiao)的FP8通(tong)用矩阵乘法(GEMM)设计的库,具有细粒度缩放功能。
第(di)四天,DualPipe与EPLB发布,DualPipe是一种创新(xin)的双向(xiang)管道并行算法。EPLB即专家(jia)并行负载均衡器,自动平衡GPU负载,避免部分显卡过载或闲置。
最(zui)后一天,3FS文件系统发布,并行文件系统Fire-Flyer File System,利用SSD和RDMA网(wang)络技(ji)术,显著加(jia)速数(shu)据处理。
周六,DeepSeek又披露了盈利情(qing)况(kuang),算是为开源周做了一个很好(hao)的收尾。