11月12日,中國人工智能產(chǎn)業(yè)聯(lián)盟第十三次全會在北京召開,華為數(shù)據(jù)存儲聯(lián)合中國信通院、工信部人工智能關(guān)鍵技術(shù)和應(yīng)用評測實驗室、工商銀行、中國移動、中國聯(lián)通、百度、阿里云、騰訊云、螞蟻集團等正式發(fā)起“大模型基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃”,該計劃從需求角度出發(fā),以提升大模型基礎(chǔ)設(shè)施的質(zhì)量與效能為目標,共同加快布局“高效計算調(diào)度+高性能AI存儲+高通量網(wǎng)絡(luò)+高效能開發(fā)平臺+智能化運維平臺”,助力大模型工程化落地。
華為閃存存儲領(lǐng)域總裁黃濤參與啟動儀式,并作為推進計劃代表發(fā)表《構(gòu)建先進AI存儲,助力AI大模型高質(zhì)量發(fā)展》主題演講。
人類利用數(shù)據(jù)在AI領(lǐng)域取得長足發(fā)展,數(shù)智時代是數(shù)據(jù)的黃金時代,隨著數(shù)據(jù)規(guī)模爆炸式增長、數(shù)據(jù)價值不斷攀升,但同時我們面臨xPU與存儲的帶寬不足、算力集群可用度低、推理時延長等挑戰(zhàn),這對存儲提出更高要求。黃濤提出,具備極致性能、高擴展性、數(shù)據(jù)韌性、可持續(xù)發(fā)展、新數(shù)據(jù)范式以及數(shù)據(jù)編織能力的新一代AI存儲是通往AI數(shù)智時代的必由之路。
| 以存強算,AI集群可用度提升30%
隨著AI集群規(guī)模的擴大,故障率也隨之變高,目前業(yè)界千卡以上的AI集群可用度往往不足50%,這意味著,即使我們不斷增加xPU的數(shù)量,其可用度卻呈反比降低,這對于成本高昂的AI集群來說是極大的資源浪費,而提升訓(xùn)練集群存儲性能可以大幅縮短數(shù)據(jù)集加載時間,實現(xiàn)秒級CKPT(檢查點)保存,分鐘級斷點續(xù)訓(xùn),有效提升算力集群可用度。
| 數(shù)據(jù)編織,實現(xiàn)跨域數(shù)據(jù)高效歸集,數(shù)據(jù)全局可視可管
隨著大模型的規(guī)模法則(Scaling Law)不斷演進,無論是在進行CKPT的并行保存與加載、多模態(tài)數(shù)據(jù)的收集與清洗、全局數(shù)據(jù)的Shuffle(混洗)與模態(tài)對齊,還是AI算法的調(diào)優(yōu)以及大規(guī)模集群的運維診斷跟蹤,都迫切需要一個全局對等共享、單一命名空間、且具備高性能并行讀寫能力的大型文件系統(tǒng)。這樣的系統(tǒng)能夠避免多文件系統(tǒng)和多集群之間聯(lián)邦式的低效堆疊,從而顯著簡化大規(guī)模集群環(huán)境下的數(shù)據(jù)調(diào)度和數(shù)據(jù)管理流程,進而持續(xù)提高數(shù)據(jù)供應(yīng)的效率。
| 以存代算,長記憶內(nèi)存型存儲提升推理體驗并降低系統(tǒng)成本
AI推理是企業(yè)實現(xiàn)AI應(yīng)用商業(yè)化的先決條件,長上下文處理技術(shù)不僅顯著提升了模型在多樣化任務(wù)中的表現(xiàn),而且為模型在實際應(yīng)用中的廣泛應(yīng)用打下了堅實的基礎(chǔ)。顯然,Long Context(長上下文)處理技術(shù)已經(jīng)成為推理技術(shù)未來發(fā)展的主要趨勢。然而,在實際應(yīng)用中,長上下文處理面臨著成本高昂和體驗不佳的雙重挑戰(zhàn),尤其是在推理過程中KV-Cache存不下問題尤為突出。迫切需要解決KV-Cache的全局共享和推理記憶的持久化問題。因此,將KV-Cache實現(xiàn)分層緩存,并確保其高性能訪問,通過長記憶內(nèi)存型存儲以存代替算來提升推理性能和成本效益,已成為技術(shù)發(fā)展的主流方向。
中國的AI存儲快速發(fā)展,華為與清華MADSys聯(lián)合的存儲方案,在24年首次獲得MLPerf Storage測試全球第一,2節(jié)點AI存儲性能高達679 GB/s,性能指標達到第二名的2倍,在單位空間內(nèi)可以提供更多的性能。
存儲系統(tǒng)存在于大模型生命周期的每一環(huán),是大模型的關(guān)鍵基座,先進AI存儲能夠提升訓(xùn)練集群可用度,保障數(shù)據(jù)安全,降低推理成本提升用戶體驗。黃濤表示,在數(shù)據(jù)的黃金時代需要AI原生存儲,產(chǎn)學(xué)研用需要加強合作引領(lǐng)AI原生存儲發(fā)展方向,助力AI大模型高質(zhì)量發(fā)展。