DeepSeek開(kāi)源周收官,DeepSeek以最后一彈,再次在AI江湖激起了層層漣漪。
3月1日,DeepSeek在知乎上發(fā)表題為《DeepSeek-V3/R1 推理系統(tǒng)概覽》的文章,全面揭曉V3/R1 推理系統(tǒng)背后的關(guān)鍵秘密。
最為引人注目的是,文章首次披露了DeepSeek的理論成本和利潤(rùn)率等關(guān)鍵信息。據(jù)介紹,假定GPU租賃成本為2美元/小時(shí),總成本為87072美元/天;如果所有tokens全部按照DeepSeek R1的定價(jià)計(jì)算,理論上一天的總收入為562027美元/天,成本利潤(rùn)率為545%。
最大程度優(yōu)化推理系統(tǒng),理論成本利潤(rùn)率高達(dá)545%
據(jù)文章介紹,DeepSeek-V3/R1推理系統(tǒng)的優(yōu)化目標(biāo)是更大的吞吐、更低的延遲。為了實(shí)現(xiàn)這兩個(gè)目標(biāo),DeepSeek使用了大規(guī)模跨節(jié)點(diǎn)專家并行(Expert Parallelism / EP)的方法,并通過(guò)一系列技術(shù)策略,最大程度地優(yōu)化了大模型推理系統(tǒng),實(shí)現(xiàn)了驚人的性能和效率。
具體而言,在更大的吞吐的方面,大規(guī)??绻?jié)點(diǎn)專家并行能夠使得batch size(批尺寸)大大增加,從而提高GPU矩陣乘法的效率,提高吞吐。
batch size在深度學(xué)習(xí)中是一個(gè)非常重要的超參數(shù),指模型在訓(xùn)練過(guò)程中每次使用的數(shù)據(jù)量大小。它決定了每次模型更新時(shí)使用的訓(xùn)練樣本數(shù)量,調(diào)整batch size可以影響模型的訓(xùn)練速度、內(nèi)存消耗以及模型權(quán)重的更新方式。
在更低的延遲方面,大規(guī)??绻?jié)點(diǎn)專家并行使得專家分散在不同的GPU上,每個(gè)GPU只需要計(jì)算很少的專家(因此更少的訪存需求),從而降低延遲。
但是,由于大規(guī)??绻?jié)點(diǎn)專家并行會(huì)大幅增加系統(tǒng)的復(fù)雜性,帶來(lái)了跨節(jié)點(diǎn)通信、多節(jié)點(diǎn)數(shù)據(jù)并行、負(fù)載均衡等挑戰(zhàn),因此DeepSeek在文章中也重點(diǎn)論述了使用大規(guī)??绻?jié)點(diǎn)專家并行增大batch size的同時(shí),如何隱藏傳輸?shù)暮臅r(shí),如何進(jìn)行負(fù)載均衡。
具體來(lái)看,DeepSeek團(tuán)隊(duì)主要通過(guò)規(guī)?;绻?jié)點(diǎn)專家并行、雙批次重疊策略、最優(yōu)負(fù)載均衡等方式,最大化資源利用率,保證高性能和穩(wěn)定性。
值得注意的是,文章還披露了DeepSeek的理論成本和利潤(rùn)率等關(guān)鍵信息。據(jù)介紹,DeepSeek V3 和R1的所有服務(wù)均使用英偉達(dá)的H800 GPU,由于白天的服務(wù)負(fù)荷高,晚上的服務(wù)負(fù)荷低,DeepSeek實(shí)現(xiàn)了一套機(jī)制,在白天負(fù)荷高的時(shí)候,用所有節(jié)點(diǎn)部署推理服務(wù)。晚上負(fù)荷低的時(shí)候,減少推理節(jié)點(diǎn),以用來(lái)做研究和訓(xùn)練。
通過(guò)時(shí)間上的成本控制,DeepSeek表示DeepSeek V3和R1推理服務(wù)占用節(jié)點(diǎn)總和,峰值占用為278個(gè)節(jié)點(diǎn),平均占用226.75個(gè)節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)為8個(gè)H800 GPU)。假定GPU租賃成本為2美元/小時(shí),總成本為87072美元/天;如果所有tokens全部按照DeepSeek R1的定價(jià)計(jì)算,理論上一天的總收入為562027美元/天,成本利潤(rùn)率為545%。
不過(guò),DeepSeek也強(qiáng)調(diào),實(shí)際上的收入或許并沒(méi)有那么多,因?yàn)閂3的定價(jià)相較于R1要更低,另外夜間還會(huì)有折扣。記者注意到,2月26日,DeepSeek在其API開(kāi)放平臺(tái)發(fā)布錯(cuò)峰優(yōu)惠活動(dòng)通知。根據(jù)通知,北京時(shí)間每日00:30-08:30為錯(cuò)峰時(shí)段,API調(diào)用價(jià)格大幅下調(diào),其中DeepSeek-V3降至原價(jià)的50%,DeepSeek-R1降至25%。DeepSeek鼓勵(lì)用戶在該時(shí)段調(diào)用,享受更經(jīng)濟(jì)更流暢的服務(wù)體驗(yàn)。
根據(jù)模型價(jià)格細(xì)節(jié),在標(biāo)準(zhǔn)時(shí)段(北京時(shí)間08:30-00:30),V3和R1的百萬(wàn)tokens輸入(緩存命中)價(jià)格分別為0.5元和1元,百萬(wàn)tokens輸出分別為8元和16元,R1均為V3的兩倍。而在優(yōu)惠時(shí)段(北京時(shí)間00:30-08:30),V3和R1的百萬(wàn)tokens輸入(緩存命中)則均降為0.25元,百萬(wàn)tokens輸出均降為4元。
開(kāi)源周告一段落,更多驚喜或許還在路上
隨著最后一枚“重磅炸彈”的發(fā)布,DeepSeek的開(kāi)源周活動(dòng)正式告一段落。
在過(guò)去的一周里,DeepSeek每天開(kāi)源一個(gè)代碼庫(kù),堪稱公開(kāi)了一個(gè)“技術(shù)全家桶”。業(yè)內(nèi)人士分析,這一系列的技術(shù)組件看似獨(dú)立,實(shí)則共同構(gòu)建成了一套精密協(xié)同的系統(tǒng),讓DeepSeek在有限算力之下最大程度地“榨干”了GPU,實(shí)現(xiàn)了訓(xùn)練推理效率的大幅提升。
記者注意到,在DeepSeek今天發(fā)布“最后一彈”的帖子下,不少國(guó)外網(wǎng)友表達(dá)了贊嘆。例如,一名網(wǎng)友表示,到第七天,DeepSeek或許還會(huì)發(fā)布AGI(通用人工智能,人工智能的最高目標(biāo));另外一名網(wǎng)友表示,“這就是為了正確的理由做正確的事情,你們絕對(duì)是傳奇,鞠躬致敬”;還有網(wǎng)友猜測(cè),DeepSeek愿意公布這些信息,說(shuō)明他們實(shí)際上已經(jīng)達(dá)到了領(lǐng)先的水平,實(shí)際的技術(shù)能力可能更高。
不僅如此,還有網(wǎng)友將DeepSeek與OpenAI進(jìn)行對(duì)比,表示:“‘成本利潤(rùn)率545%’,等一下,所以你是說(shuō)我被OpenAI搶劫了?”
與DeepSeek的開(kāi)源、免費(fèi)相比,OpenAI的模型收費(fèi)一直十分昂貴。就在2月28日,OpenAI正式發(fā)布最新模型GPT-4.5研究預(yù)覽版,這是一款號(hào)稱“情商最高”的通用大語(yǔ)言模型。然而,其高達(dá)每100萬(wàn)tokens輸入75美元的API調(diào)用價(jià)格,相比GPT-4o的2.5美元暴漲了30倍,相比DeepSeek的正常價(jià)格,GPT-4.5輸入價(jià)格更是達(dá)到了驚人的280倍。
事實(shí)上,GPT-4.5發(fā)布后,許多網(wǎng)友已在評(píng)論區(qū)吐槽定價(jià)太貴。而OpenAI的CEO山姆·奧特曼也承認(rèn),GPT-4.5是一個(gè)“龐大且昂貴的模型”。“我們?cè)痉浅OM瑫r(shí)向Plus和Pro用戶推出它,但隨著我們的規(guī)模發(fā)展壯大,我們已經(jīng)耗盡了GPU資源。我們將在下周增加數(shù)萬(wàn)塊GPU,然后將其推出給Plus層級(jí)的用戶?!眾W特曼在其個(gè)人社交平臺(tái)上表示。
作為大模型領(lǐng)域的“鯰魚(yú)”,DeepSeek如同一名初出茅廬、聰明而銳氣的年輕人,持續(xù)地給行業(yè)的老玩家及巨頭們帶來(lái)壓力。最近,據(jù)外媒透露,DeepSeek正在加速研發(fā)DeepSeek-R2推理模型,這一模型原計(jì)劃今年5月發(fā)布,但或許會(huì)提前,新模型有望可以生成更好的代碼,并且使用英語(yǔ)之外的語(yǔ)言進(jìn)行推理。
從V3到R1,再到即將面世的R2,外界對(duì)DeepSeek充滿了期待,DeepSeek也以持續(xù)的技術(shù)突破驚艷世界。開(kāi)源周雖然暫時(shí)結(jié)束了,但更多的驚喜,或許還在路上。
責(zé)編:萬(wàn)健祎
校對(duì):李凌鋒