AV天堂无码手机版,国产人国产视频。,一本到综在合线亚洲,av免费无码天堂在线

剛剛!DeepSeek,硬核發(fā)布!
來(lái)源:證券時(shí)報(bào)網(wǎng)作者:時(shí)謙2025-02-27 12:45

DeepSeek又有大動(dòng)作!

開源周第三天,DeepSeek宣布開源Optimized Parallelism Strategies(優(yōu)化并行策略)。

Optimized Parallelism Strategies,該策略是為了提高計(jì)算效率、減少資源浪費(fèi)并最大化系統(tǒng)性能而設(shè)計(jì)的并行計(jì)算方案。這些策略通過(guò)合理分配任務(wù)、協(xié)調(diào)資源利用和減少通信開銷,實(shí)現(xiàn)在多核、分布式或異構(gòu)系統(tǒng)中的高效并行執(zhí)行。

與此同時(shí),英偉達(dá)開源了首個(gè)在Blackwell架構(gòu)上優(yōu)化的DeepSeek-R1,實(shí)現(xiàn)了推理速度提升25倍,并且每token成本降低20倍的驚人成果。這一新模型的推出,標(biāo)志著英偉達(dá)在人工智能領(lǐng)域的又一次重大進(jìn)展。

動(dòng)作不斷

DeepSeek開源周第四天,今天早上,該公司再度開源優(yōu)化并行策略,包括DualPipe、專家并行負(fù)載均衡器 (EPLB)、DeepSeek Infra 中的性能分析數(shù)據(jù)。優(yōu)化并行策略需根據(jù)任務(wù)類型、數(shù)據(jù)規(guī)模、硬件環(huán)境靈活選擇,平衡計(jì)算、通信和存儲(chǔ)開銷,最終實(shí)現(xiàn)高效、可擴(kuò)展的并行計(jì)算。該策略是為了提高計(jì)算效率、減少資源浪費(fèi)并最大化系統(tǒng)性能而設(shè)計(jì)的并行計(jì)算方案。

最近,DeepSeek硬核不斷。此前,該公司宣布將DeepEP向公眾開放。在宣布后的約20分鐘內(nèi),DeepEP已在 GitHub、微軟(MSFT.US)等平臺(tái)上獲得超過(guò)1000個(gè) Star收藏。

據(jù)悉,DeepEP是MoE模型訓(xùn)練和推理的Expert Parallelism通信基礎(chǔ),可實(shí)現(xiàn)高效優(yōu)化的全到全通信,以支持包括FP8在內(nèi)的低精度計(jì)算,適用于現(xiàn)代高性能計(jì)算。DeepEP還針對(duì)從NVLink到RDMA的非對(duì)稱帶寬轉(zhuǎn)發(fā)場(chǎng)景進(jìn)行了深度優(yōu)化,不僅提供高吞吐量,還支持流式多處理器數(shù)量控制,從而在訓(xùn)練和推理任務(wù)中實(shí)現(xiàn)高吞吐量性能。

此外,2月26日,DeepSeek宣布即日起在北京時(shí)間每日00:30至08:30的夜間空閑時(shí)段,大幅下調(diào)API調(diào)用價(jià)格,其中DeepSeek-V3降至原價(jià)的50%,DeepSeek-R1更是低至25%,降幅最高達(dá)75%。該公司稱,這一舉措旨在鼓勵(lì)用戶充分利用夜間時(shí)段,享受更經(jīng)濟(jì)、更流暢的服務(wù)體驗(yàn)。

英偉達(dá)亦借機(jī)突破

近日,英偉達(dá)開源了首個(gè)在Blackwell架構(gòu)上優(yōu)化的DeepSeek-R1,實(shí)現(xiàn)了推理速度提升25倍,并且每token成本降低20倍的驚人成果。這一新模型的推出,標(biāo)志著英偉達(dá)在人工智能領(lǐng)域的又一次重大進(jìn)展。

根據(jù)媒體報(bào)道,DeepSeek-R1的本地化部署已經(jīng)引起廣泛關(guān)注,英偉達(dá)也親自下場(chǎng),開源了基于Blackwell架構(gòu)的優(yōu)化方案——DeepSeek-R1-FP4。這一新模型在推理吞吐量上達(dá)到了高達(dá)21,088 token每秒,與H100的844 token每秒相比,提升幅度高達(dá)25倍。同時(shí),每token的成本也實(shí)現(xiàn)了20倍的降低。

英偉達(dá)通過(guò)在Blackwell架構(gòu)上應(yīng)用TensorRT DeepSeek優(yōu)化,讓具有FP4生產(chǎn)級(jí)精度的模型,在MMLU通用智能基準(zhǔn)測(cè)試中達(dá)到了FP8 模型性能的99.8%。目前,英偉達(dá)基于FP4優(yōu)化的DeepSeek-R1檢查點(diǎn)已經(jīng)在Hugging Face上開源,并且可以通過(guò)以下鏈接訪問(wèn)模型地址:DeepSeek-R1-FP4。

在后訓(xùn)練量化方面,該模型將Transformer模塊內(nèi)的線性算子的權(quán)重和激活量化到了FP4,適用于TensorRT-LLM推理。這一優(yōu)化使每個(gè)參數(shù)的位數(shù)從8位減少到4位,從而讓磁碟空間和GPU顯存的需求減少了約1.6倍。

使用TensorRT-LLM部署量化后的FP4權(quán)重文件,能夠?yàn)榻o定的提示生成文本響應(yīng),這需要支持TensorRT-LLM的英達(dá)GPU(如 B200),并且需要8個(gè)GPU來(lái)實(shí)現(xiàn)tensor_parallel_size=8的張量并行。這段代碼利用FP4量化、TensorRT引擎和并行計(jì)算,旨在實(shí)現(xiàn)高效、低成本的推理,適合生產(chǎn)環(huán)境或高吞吐量應(yīng)用。

據(jù)報(bào)道,針對(duì)此次優(yōu)化的成果,網(wǎng)友們表示驚嘆,稱「FP4 魔法讓 AI 未來(lái)依然敏銳!」有網(wǎng)友評(píng)論道,這次的優(yōu)化使得美國(guó)供應(yīng)商能夠以每百萬(wàn)token 0.25美元的價(jià)格提供R1,并認(rèn)為「還會(huì)有利潤(rùn)」。

如今,DeepSeek的開源活動(dòng)持續(xù)進(jìn)行。周一,DeepSeek 開源了 FlashMLA,這是專為英偉達(dá)Hopper GPU打造的高效MLA譯碼內(nèi)核,特別針對(duì)變長(zhǎng)序列進(jìn)行了優(yōu)化。周二則推出了DeepEP,這是一個(gè)為混合專家系統(tǒng)(MoE)和專家并行(EP)設(shè)計(jì)的通信庫(kù)。周三開源的是 DeepGEMM,這是一個(gè)支持稠密和 MoE 模型的 FP8 GEMM 計(jì)算庫(kù),為 V3/R1 的訓(xùn)練和推理提供強(qiáng)大支持。

總體而言,無(wú)論是英偉達(dá)開源的 DeepSeek-R1-FP4,還是 DeepSeek 開源的其他三個(gè)倉(cāng)庫(kù),都是通過(guò)對(duì)輝達(dá) GPU 和集群的優(yōu)化,來(lái)推動(dòng) AI 模型的高效計(jì)算和部署。

校對(duì):趙燕

責(zé)任編輯: 冉超
聲明:證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)
下載“證券時(shí)報(bào)”官方APP,或關(guān)注官方微信公眾號(hào),即可隨時(shí)了解股市動(dòng)態(tài),洞察政策信息,把握財(cái)富機(jī)會(huì)。
網(wǎng)友評(píng)論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法,并不表明證券時(shí)報(bào)立場(chǎng)
暫無(wú)評(píng)論
為你推薦
時(shí)報(bào)熱榜
換一換
    熱點(diǎn)視頻
    換一換
    <nav id="iiiii"></nav>
      <noscript id="iiiii"><dd id="iiiii"></dd></noscript><tfoot id="iiiii"><noscript id="iiiii"></noscript></tfoot><nav id="iiiii"><sup id="iiiii"></sup></nav>
      <nav id="iiiii"><sup id="iiiii"></sup></nav>
    • <sup id="iiiii"><code id="iiiii"></code></sup>
      <sup id="iiiii"></sup>
    • <code id="iiiii"><object id="iiiii"></object></code>
    • <sup id="iiiii"></sup>