大模型開源,“卷”到了視頻領(lǐng)域。
2月25日晚,阿里巴巴宣布全面開源旗下視頻生成模型萬相2.1模型。據(jù)介紹,通義萬相2.1模型基于Apache2.0協(xié)議,14B和1.3B兩個參數(shù)規(guī)格的全部推理代碼和權(quán)重全部開源,同時支持文生視頻和圖生視頻任務(wù),全球開發(fā)者可在Github、HuggingFace和魔搭社區(qū)下載體驗。
通義萬相是阿里云通義系列AI繪畫創(chuàng)作大模型,可輔助人類進行圖片創(chuàng)作,于2023年7月7日正式上線。在2024年9月19日的阿里云棲大會上,阿里發(fā)布了通義萬相視頻生成大模型。該模型可以生成影視級高清視頻,而且更能聽懂中國話,被外界稱為“最懂中國風(fēng)”的視頻大模型。
值得注意的是,就在今年1月初,通義萬相視頻生成模型宣布重磅升級至2.1版,模型整體性能大幅提升,尤其是在處理復(fù)雜運動、還原真實物理規(guī)律、提升電影質(zhì)感及優(yōu)化指令遵循方面取得了顯著進展。通義萬相2.1推出后,憑借著優(yōu)秀的表現(xiàn),在權(quán)威評測榜單VBench中登上榜首。
據(jù)了解,VBench是視頻生成領(lǐng)域的權(quán)威評測集,它一共有16個評分維度,從整體一致性、動作流暢度、畫面穩(wěn)定性等方面對模型進行全方位評估。VBench榜單顯示,通義萬相在運動幅度、多對象生成、空間關(guān)系等關(guān)鍵能力上拿下最高分,并以總分84.7%的成績斬獲第一。這意味著,通義萬相是國內(nèi)乃至全球視頻生成模型的領(lǐng)跑者。
具體阿里通義團隊介紹,通義萬相2.1模型在圖像生成和視頻生成兩大能力上均有顯著提升。在視頻生成方面,通過自研的高效VAE和DiT架構(gòu),增強了時空上下文建模能力,可支持無限長1080P視頻的高效編解碼,并在文字視頻生成上實現(xiàn)了突破,成為首個支持中文文字生成能力、且同時支持中英文文字特效生成的視頻生成模型,可滿足廣告設(shè)計、短視頻等領(lǐng)域的創(chuàng)作需求。
根據(jù)阿里展示的案例,當(dāng)用戶輸入:“以紅色新年宣紙為背景,出現(xiàn)一滴水墨,暈染墨汁緩緩暈染開來。文字的筆畫邊緣模糊且自然,隨著暈染的進行,水墨在紙上呈現(xiàn)‘?!郑珡纳畹綔\過渡,呈現(xiàn)出獨特的東方韻味。背景高級簡潔,雜志攝影感”的指令時,通義萬相2.1模型可以根據(jù)要求,輸出具有中國特色及濃郁的新年風(fēng)格的視頻素材,富有東方韻味。
由于“最懂中國風(fēng)”,通義萬相模型在蛇年春晚上也發(fā)揮了重要作用。例如,在春晚每年的保留節(jié)目《難忘今宵》中,舞臺背景中變身為絢麗花燈的城市地標,正是由通義萬相圖像編輯模型Wanx-ACE生成。另外,在莫文蔚與毛不易合唱的《歲月里的花》節(jié)目中,阿里通義萬相利用圖像風(fēng)格化和首尾幀視頻生成技術(shù),生成了沉浸式的油畫風(fēng)舞美效果,為觀眾呈現(xiàn)了一場絢麗的視覺盛宴。
業(yè)內(nèi)人士分析稱,2024年春節(jié)前后,OpenAI憑借Sora在視頻生成領(lǐng)域引發(fā)熱潮,讓視頻生成成為各大AI廠商競相追逐的焦點。而2025年春節(jié),阿里通義萬相則展示了視頻生成技術(shù)令人矚目的顯著進步,引領(lǐng)著視頻大模型領(lǐng)域繼續(xù)飛速向前發(fā)展。
當(dāng)前,DeepSeek正以開放的姿態(tài)參與重構(gòu)全球AI生態(tài)格局,并給大模型開源社區(qū)注入了極強的信心與動力。2月24日,DeepSeek正式啟動“開源周”,連續(xù)5天每天開源一個代碼庫,吸引了全球開發(fā)者極大關(guān)注。在開源公告中,DeepSeek還表示,自己只是探索通用人工智能的小公司,作為開源社區(qū)的一部分,每分享一行代碼,都會成為加速AI行業(yè)發(fā)展的集體動力。
在DeepSeek的帶動下,越來越多的AI廠商開始擁抱開源。阿里巴巴此次開源旗下視頻生成模型萬相2.1模型,標志著開源的范圍正從大語言模型領(lǐng)域擴展至圖像、視頻等多模態(tài)大模型領(lǐng)域,有助于打破技術(shù)壁壘,讓更多的開發(fā)者和研究人員能夠共同參與到AI創(chuàng)新的進程中來。
校對:王朝全