DeepSeek又有大消息。
3月1日,DeepSeek發(fā)表題為《DeepSeek-V3/R1 推理系統(tǒng)概覽》的文章,全面揭曉V3/R1 推理系統(tǒng)背后的關(guān)鍵秘密。
最為引人注目的是,文章首次披露了DeepSeek的理論成本和利潤(rùn)率等關(guān)鍵信息。據(jù)介紹,假定GPU租賃成本為2美元/小時(shí),總成本為87072美元/天;如果所有tokens全部按照DeepSeek R1的定價(jià)計(jì)算,理論上一天的總收入為562027美元/天,成本利潤(rùn)率為545%。
根據(jù)DeepSeek官方披露,DeepSeek V3和R1的所有服務(wù)均使用H800 GPU,使用和訓(xùn)練一致的精度,即矩陣計(jì)算和dispatch 傳輸采用和訓(xùn)練一致的FP8格式,core-attention計(jì)算和combine傳輸采用和訓(xùn)練一致的BF16,最大程度保證了服務(wù)效果。
另外,由于白天的服務(wù)負(fù)荷高,晚上的服務(wù)負(fù)荷低,因此DeepSeek實(shí)現(xiàn)了一套機(jī)制,在白天負(fù)荷高的時(shí)候,用所有節(jié)點(diǎn)部署推理服務(wù)。晚上負(fù)荷低的時(shí)候,減少推理節(jié)點(diǎn),以用來做研究和訓(xùn)練。
在最近24小時(shí)(2025年2月27日12:00至28日12:00)的統(tǒng)計(jì)周期內(nèi):GPU租賃成本按2美元/小時(shí)計(jì)算,日均成本為87072美元;若所有輸入/輸出token按R1定價(jià)(輸入1元/百萬token、輸出16元/百萬token)計(jì)算,單日收入可達(dá)562027美元,成本利潤(rùn)率高達(dá)545%。
不過,DeepSeek官方坦言,實(shí)際上沒有這么多收入,因?yàn)閂3的定價(jià)更低,同時(shí)收費(fèi)服務(wù)只占了一部分,另外夜間還會(huì)有折扣。
DeepSeek的高利潤(rùn)率源于其創(chuàng)新的推理系統(tǒng)設(shè)計(jì),核心包括大規(guī)??绻?jié)點(diǎn)專家并行(EP)、計(jì)算通信重疊與負(fù)載均衡優(yōu)化三大技術(shù)支柱:專家并行(EP)提升吞吐與響應(yīng)速度,針對(duì)模型稀疏性(每層僅激活8/256個(gè)專家),采用EP策略擴(kuò)展總體批處理規(guī)模(batch size),確保每個(gè)專家獲得足夠的計(jì)算負(fù)載,顯著提升GPU利用率;部署單元?jiǎng)討B(tài)調(diào)整(如Prefill階段4節(jié)點(diǎn)、Decode階段18節(jié)點(diǎn)),平衡資源分配與任務(wù)需求。
計(jì)算與通信重疊隱藏延遲,Prefill階段通過“雙batch交錯(cuò)”實(shí)現(xiàn)計(jì)算與通信并行,Decode階段拆分attention為多級(jí)流水線,最大限度掩蓋通信開銷。
全局負(fù)載均衡避免資源浪費(fèi),針對(duì)不同并行模式(數(shù)據(jù)并行DP、專家并行EP)設(shè)計(jì)動(dòng)態(tài)負(fù)載均衡器,確保各GPU的計(jì)算量、通信量及KVCache占用均衡,避免節(jié)點(diǎn)空轉(zhuǎn)。
簡(jiǎn)單來說,EP就像是“多人協(xié)作”,把模型中的“專家”分散到多張GPU上進(jìn)行計(jì)算,大幅提升Batch Size,榨干GPU算力,同時(shí)專家分散,降低內(nèi)存壓力,更快響應(yīng)。
DeepSeek在工程層面進(jìn)一步壓縮成本。晝夜資源調(diào)配:白天高峰時(shí)段全力支持推理服務(wù),夜間閑置節(jié)點(diǎn)轉(zhuǎn)用于研發(fā)訓(xùn)練,最大化硬件利用率;緩存命中率達(dá)56.3%:通過KVCache硬盤緩存減少重復(fù)計(jì)算,在輸入token中,有3420億個(gè)(56.3%)直接命中緩存,大幅降低算力消耗。
綜合自券商中國(guó)