Sora 停滯于已公開的 60 秒 demo,國內(nèi)視頻生成模型的發(fā)展卻頻頻給產(chǎn)業(yè)界帶來驚喜。CogVideoX 是智譜AI視頻生成模型的開源版本,與智譜清影同源,架構(gòu)為DiT。截至今日,已在Github 攬獲5.4k Star,被譽為是國內(nèi)首個人人可用的 Sora。
現(xiàn)無問芯穹Infini-AI異構(gòu)云平臺的GenStudio大模型服務平臺已上架CogVideoX 2B。通過使用申請的開發(fā)者已可通過GenStudio體驗和使用CogVideoX 2B文生視頻模型能力。
無問芯穹GenStudio模型筆記
模型能力概覽:CogVideoX支持固定720*480分辨率和8fp/s幀率視頻生成,每次生成視頻長度為6秒共48幀,是目前效果最好的開源視頻生成模型之一,生成視頻在動作細節(jié)和視頻流暢度等方面相比以往公開模型有較大的提升,對文本Prompt的感知能力較強,能有效支持可控生成。
未來應用潛力:我們認為在當前多媒體類工作流程中,視頻生成模型已可以應用于劇本背景設定、畫面風格、劇情走向等內(nèi)容的生產(chǎn)與快速效果驗證,結(jié)合專業(yè)人員的圖像處理和視頻編輯工作,能更高效地產(chǎn)出Demo內(nèi)容。文生視頻類的模型,使得概念從想象和文字,到可視化效果驗證的路徑大幅度縮短了。
CogVideoX 2B 性能與效果
智譜AI使用了 VBench 中的多個指標,如人類動作、場景、動態(tài)程度等,以及Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score兩個專注于視頻的動態(tài)特性的視頻評估工具來評估CogVideoX的文生視頻性能。
針對CogVideoX 2B主要理解內(nèi)容為英文Prompt的情況,無問芯穹提供了一鍵翻譯和潤色Prompt能力?;谄脚_預置的大語言模型,將用戶的中文描述內(nèi)容自動轉(zhuǎn)為英文,并進行相應的視頻細節(jié)補充,使得模型可以在更豐富描述詞的基礎上生成相應的內(nèi)容。
GenStudio大模型服務平臺
GenStudio內(nèi)置于無問芯穹Infini-AI異構(gòu)云平臺,現(xiàn)已上架包括CogVideoX 2B、Llama 3.1 70B、Qwen2 72B、GLM4 9B、Stable Diffusion在內(nèi)的多種大語言模型、文生圖及文生視頻模型。GenStudio針對生成式大模型的應用落地的多種場景需求,為應用開發(fā)者提供高性能、易上手、安全可靠的大模型服務,覆蓋從大模型開發(fā)到大模型服務化部署的全流程。
使用GenStudio時,大模型應用開發(fā)團隊無需關注機器、開發(fā)環(huán)境等大模型開發(fā)要素,可以直接在這個平臺上體驗、對比各種模型能力和芯片效果,通過簡單拖拽各種參數(shù)按鈕的動作,精調(diào)出更貼合業(yè)務的大模型并完成部署,最快三天就可開發(fā)一個大模型應用。GenStudio已成功幫助多個團隊有效降低技術負擔、提高了調(diào)試效率并簡化了開發(fā)流程。