近些年,人工智能技術(shù)快速發(fā)展,宛如一顆璀璨的新星,成為推動(dòng)科技和產(chǎn)業(yè)加速發(fā)展的重要力量,為經(jīng)濟(jì)社會(huì)的發(fā)展和人類文明的進(jìn)步帶來(lái)了深遠(yuǎn)且持久的影響。2023年寬泛科技攜手教育部科技發(fā)展中心,發(fā)布了中國(guó)高校產(chǎn)學(xué)研創(chuàng)新基金,這一舉措旨在全力支持高校在人工智能領(lǐng)域的課題研究,為培養(yǎng)未來(lái)的人工智能人才和推動(dòng)學(xué)術(shù)創(chuàng)新貢獻(xiàn)力量。
強(qiáng)大的基礎(chǔ)設(shè)施是AI技術(shù)的推動(dòng)力,為此,寬泛科技聯(lián)合華為數(shù)據(jù)存儲(chǔ),使用華為AI數(shù)據(jù)湖解決方案一同構(gòu)建先進(jìn)的訓(xùn)練平臺(tái)。華為AI數(shù)據(jù)湖解決方案是訓(xùn)練平臺(tái)的重要組成部分,它基于多套OceanStor AI存儲(chǔ),依托多協(xié)議互通、智能數(shù)據(jù)分級(jí)以及高性能并行客戶端的專業(yè)存儲(chǔ)能力,提供令人驚嘆的TB級(jí)帶寬以及強(qiáng)大的EB級(jí)容量擴(kuò)展實(shí)力,從而加速大模型的訓(xùn)練。
寬泛科技:構(gòu)建AI訓(xùn)練平臺(tái)面臨挑戰(zhàn)
算力可用度的提升
大模型訓(xùn)練以多機(jī)多卡任務(wù)為主,往往會(huì)用到成千上萬(wàn)張GPU卡,運(yùn)行過(guò)程中常常面臨各種故障,如網(wǎng)絡(luò)波動(dòng)、硬盤(pán)故障、GPU故障等,這些故障都可能導(dǎo)致訓(xùn)練任務(wù)意外中斷。因此,大模型算力的實(shí)際可用度普遍低于50%,這對(duì)訓(xùn)練效率和資源利用率構(gòu)成了顯著的影響。為了對(duì)訓(xùn)練到推理的全流程進(jìn)行優(yōu)化,寬泛科技意識(shí)到使用專業(yè)的AI存儲(chǔ)避免GPU無(wú)效等待至關(guān)重要。
容量平滑擴(kuò)展能力
隨著算力租賃市場(chǎng)的蓬勃發(fā)展以及多模態(tài)智能化技術(shù)的不斷演進(jìn),寬泛科技的AI集群規(guī)模亟需從千卡規(guī)模演進(jìn)至萬(wàn)卡。這一過(guò)程導(dǎo)致數(shù)據(jù)量的激增,存儲(chǔ)容量也需要從幾PB到幾十PB,甚至擴(kuò)展到EB級(jí)。在靈活擴(kuò)展的同時(shí),還要兼顧成本,這就需要提高存儲(chǔ)介質(zhì)的利用效率,對(duì)數(shù)據(jù)進(jìn)行“溫”、“冷”、“熱”的區(qū)分,將它們存在相應(yīng)的存儲(chǔ)介質(zhì)上,能夠顯著降低存儲(chǔ)成本。
并發(fā)可靠訪問(wèn)能力
隨著越來(lái)越多的研究人員加入到高校人工智能課題的研究,寬泛科技所要求的AI集群規(guī)模也越來(lái)越大,同時(shí)會(huì)有上千名研究員并發(fā)測(cè)試、調(diào)度、調(diào)優(yōu)等,且隨著業(yè)務(wù)量逐漸加大,并發(fā)量還將逐漸增大,因此對(duì)存儲(chǔ)的高并發(fā)可靠訪問(wèn)能力也有非常高的要求。
華為 AI 數(shù)據(jù)湖解決方案
寬泛訓(xùn)練平臺(tái)的卓越之選
寬泛科技與華為數(shù)據(jù)存儲(chǔ)強(qiáng)強(qiáng)聯(lián)手,共同構(gòu)建起領(lǐng)先的大模型訓(xùn)練平臺(tái),它基于寬泛飛魚(yú)調(diào)度平臺(tái)和華為AI數(shù)據(jù)湖解決方案,為客戶提供端到端(E2E)的解決方案。這一方案能夠大大節(jié)省客戶在選型和調(diào)優(yōu)上所耗費(fèi)的時(shí)間,幫助客戶在短時(shí)間內(nèi)完成更多的任務(wù)。無(wú)論是在仿真實(shí)驗(yàn)室、氣象預(yù)測(cè),還是 AI 助教等高等教育人工智能訓(xùn)推場(chǎng)景中,都能夠?qū)崿F(xiàn)快速部署,高效運(yùn)用。
華為AI數(shù)據(jù)湖解決方案憑借其良好的兼容性、EB級(jí)容量擴(kuò)展能力以及超高性能等顯著特質(zhì),成為寬泛算力中心數(shù)據(jù)基礎(chǔ)設(shè)施的首選方案。這一方案極大的提升了AI集群算力可用度,顯著提高了建設(shè)效率。
高效解決GPU利用率低難題
華為AI數(shù)據(jù)湖解決方案的高速并行文件系統(tǒng)DPC在構(gòu)建先進(jìn)訓(xùn)練平臺(tái)中發(fā)揮著關(guān)鍵作用,特別是在多節(jié)點(diǎn)并發(fā)場(chǎng)景下,能夠提供TB級(jí)帶寬、性能優(yōu)于Lustre 2倍之多,能夠使AI集群GPU利用率提升10%,其卓越的性能為算力中心提供強(qiáng)大動(dòng)力,加速企業(yè)算力中心訓(xùn)推的整個(gè)流程。
從容應(yīng)對(duì)數(shù)據(jù)增長(zhǎng)與算力需求
隨著數(shù)據(jù)量的不斷增加,訓(xùn)練平臺(tái)集群規(guī)模需要同步擴(kuò)展,華為AI數(shù)據(jù)湖解決方案完美契合了算力平臺(tái)平滑演進(jìn)的需求,支持最大4096節(jié)點(diǎn)橫向擴(kuò)展,實(shí)現(xiàn)從PB級(jí)到EB級(jí)容量擴(kuò)展。
此外,還支持?jǐn)?shù)據(jù)智能溫?zé)岱旨?jí),借此優(yōu)化資源利用率,保障關(guān)鍵數(shù)據(jù)快速訪問(wèn)。采用性能層與容量層配合,性能層存儲(chǔ)熱數(shù)據(jù)和高頻訪問(wèn)的數(shù)據(jù),提供高速的讀寫(xiě)性能和低延時(shí);容量層存儲(chǔ)溫冷數(shù)據(jù),這些數(shù)據(jù)訪問(wèn)頻率較低,但是對(duì)存儲(chǔ)容量的需求較大。通過(guò)這樣的設(shè)計(jì),能夠兼顧AI場(chǎng)景混合數(shù)據(jù)負(fù)載訴求,實(shí)現(xiàn)存儲(chǔ)價(jià)值最大化。
打破數(shù)據(jù)孤島,挖掘價(jià)值寶藏
通過(guò)統(tǒng)一的存儲(chǔ)平臺(tái)以及無(wú)損多協(xié)議互通,數(shù)據(jù)湖實(shí)現(xiàn)了統(tǒng)一管理。它成功消除了傳統(tǒng)數(shù)據(jù)存儲(chǔ)方式中數(shù)據(jù)分散在不同系統(tǒng)和應(yīng)用中的“數(shù)據(jù)孤島”問(wèn)題,為客戶數(shù)據(jù)中心提供統(tǒng)一存儲(chǔ)底座,并且能夠與寬泛飛魚(yú)調(diào)度平臺(tái)兼容,有力支撐寬泛混合算力的部署,大大節(jié)省了客戶選型和調(diào)優(yōu)的時(shí)間,幫助企業(yè)更全面的管理自身的數(shù)據(jù)資產(chǎn),進(jìn)而深度挖掘其中蘊(yùn)含的價(jià)值。
寬泛科技聯(lián)合華為數(shù)據(jù)存儲(chǔ),以寬泛飛魚(yú)調(diào)度平臺(tái)和華為AI數(shù)據(jù)湖解決方案為基礎(chǔ),融合先進(jìn)的算法和高可靠的數(shù)據(jù)湖底座,共同打造出更加先進(jìn)的訓(xùn)練平臺(tái)。成功打破“數(shù)據(jù)孤島”,架起聯(lián)通數(shù)據(jù)與知識(shí)的橋梁,加速AI人工智能的涌現(xiàn)。