12月10日,OpenAI在距其首次發(fā)布號稱“世界模擬器”的視頻生成模型Sora十個月之后,全新發(fā)布正式版Sora Turbo,新版本速度和性能都勝過Sora,用戶不僅可以通過文字提示生成視頻,還能將靜態(tài)圖片轉化為動態(tài)視頻,甚至可以對現(xiàn)有視頻進行創(chuàng)意改編。但Sora的閉源路線,使得“Open AI”變成“Closed AI”,國內學術界和科研機構紛紛開始思考如何復現(xiàn)Sora,從而在視頻生成領域也能占有一席之地。
其中由北大-兔展AIGC聯(lián)合實驗室共同發(fā)起的Open-Sora-Plan,旨在復現(xiàn)一個“開源版Sora”,目的是通過開源版Sora來推動視頻生成技術的發(fā)展,為開源社區(qū)提供一個Sora模型,用于科研和創(chuàng)作,讓全世界的開發(fā)者都能參與進來。自2024年3月1日正式公開以來,最新發(fā)布的Open-Sora-Plan
v1.3.0版本引入了五大新特性:性能更強、成本更低的WFVAE;Prompt
refiner;高質量數(shù)據(jù)清洗策略;引入了全新稀疏注意力模塊DiT;以及采用動態(tài)分辨率、支持動態(tài)時長的訓練策略,取得了顯著成果。Open-Sora-Plan也是北京大學鯤鵬昇騰科教創(chuàng)新卓越中心支撐的項目之一。
NLP到Sora多模態(tài),數(shù)據(jù)量千倍增加,讀取帶寬百倍增加,AI數(shù)據(jù)處理復雜度指數(shù)級增長,這為AI存儲帶來了新機會。北大Open-Sora-Plan團隊在使用華為AI存儲過程中,針對數(shù)據(jù)處理、訓練、推理業(yè)務全流程與華為數(shù)據(jù)存儲團隊開展聯(lián)合創(chuàng)新,達成多個技術改進點:
1、數(shù)據(jù)清洗階段-以存代算:多模態(tài)數(shù)據(jù)處理算子下移節(jié)省數(shù)據(jù)處理時長。華為AI存儲通過美學評估、光流估計、圖文過濾算子等多模態(tài)數(shù)據(jù)處理算子下移,并做到場景域模態(tài)補齊無感知,將原始數(shù)據(jù)提前轉化成訓練數(shù)據(jù),節(jié)省數(shù)據(jù)處理的時長。另外華為AI存儲數(shù)據(jù)智能冷熱分級能力既解決了數(shù)據(jù)清洗過程中數(shù)據(jù)膨脹數(shù)十倍帶來的存不下問題,又滿足了性能要求,性價比10倍提升。
2、訓練階段-以存強算:“模態(tài)-處理-編碼”感知的自適應加載優(yōu)化提升訓練效率。當前業(yè)界多模態(tài)訓練數(shù)據(jù)加載時未考慮多模態(tài)特性,且對編碼后的數(shù)據(jù)未高效復用,而是每輪訓練重復處理和計算,造成算力浪費。華為AI存儲通過將編碼后的數(shù)據(jù)特征值寫入存儲并高效復用,消除重復計算,優(yōu)化Batch分布,提升shuffle效率,訓練效率提升大于10%。
3、推理階段-以查換算:通過KV-Cache復用,減少重計算,提高長視頻理解的性能和精度,提升視頻生成效率。面向未來,Open-Sora-Plan團隊與華為AI存儲計劃在多模態(tài)視頻理解和視頻生成場景共同研究KV-Cache以查換算技術。在長視頻理解場景,無法將所有幀的表征同時喂給大模型,直接抽幀又會造成重要信息丟失,可考慮構建Visual Memory Bank提前對長視頻所有幀的表征建庫并統(tǒng)一管理,為以查換算提供了可能。多模態(tài)問答場景,用戶問題僅聚焦于部分內容中,因此可通過多模態(tài)注意力檢索取出相關表征,避免冗余信息的干擾,實現(xiàn)對關鍵幀和關鍵token的選擇,降低多模型序列長度75%,實現(xiàn)多模態(tài)KV-Cache以查換算。