8月30日,中國移動建成運營商最大單集群智算中心——中國移動智算中心(哈爾濱),并正式投產(chǎn)使用,將為全國的科技創(chuàng)新與產(chǎn)業(yè)升級帶來強大助力。
該智算中心部署超1.8萬張AI加速卡,AI芯片國產(chǎn)化率達100%,可提供6.9EFLOPS(每秒690億億次浮點運算)智能算力。首次探索通過國產(chǎn)網(wǎng)絡(luò)設(shè)備將所有AI加速卡打造成1個集群,實現(xiàn)超大規(guī)模算力資源聚合,支持全部1.8萬張卡并行訓(xùn)練、自動續(xù)訓(xùn),可為萬億級模型訓(xùn)練提供高效、穩(wěn)定的算力底座。
技術(shù)架構(gòu)上,中國移動智算中心(哈爾濱)采用參數(shù)面與數(shù)據(jù)面獨立RDMA組網(wǎng),參數(shù)面帶寬可達1.6Tbps,數(shù)據(jù)面吞吐可達15TB/s,能夠為大規(guī)模并行計算和復(fù)雜模型訓(xùn)練提供堅實保障。此外,中心還實現(xiàn)了1.8萬卡超大規(guī)模云化納管、萬卡并行訓(xùn)練以及分鐘級斷點自動續(xù)訓(xùn),極大提高了大模型訓(xùn)練的效率與穩(wěn)定性。
值得一提的是,為保障大模型訓(xùn)練高效與穩(wěn)定,智算中心上線了由移動云自研的智算管控平臺。該平臺實現(xiàn)了對主流AI卡多樣化異構(gòu)算力的統(tǒng)一納管,支持大規(guī)模集群算、存、網(wǎng)等全量軟硬件的一站式健康檢查,實現(xiàn)AI任務(wù)全生命周期的精準(zhǔn)管控。在集群出現(xiàn)故障時,該平臺能夠迅速定位并恢復(fù),為智算中心的穩(wěn)定運行提供了堅實的技術(shù)支撐。
中國移動智算中心(哈爾濱)的投產(chǎn)顯著增強了移動云國產(chǎn)化算力集群的交付與調(diào)優(yōu)實力。移動云可提供公、私、邊多場景資源池建設(shè)服務(wù),覆蓋硬件集成、軟件部署、性能調(diào)優(yōu)及驗收測試等關(guān)鍵環(huán)節(jié)。同時,移動云已完成了包括LLaMA、GPT、GLM在內(nèi)的數(shù)十款主流模型的云端遷移,具備大模型預(yù)訓(xùn)練-遷移-精調(diào)微調(diào)-推理全流程調(diào)優(yōu)能力,可以為國內(nèi)企業(yè)提供強有力的技術(shù)支撐與定制化解決方案,助力AI技術(shù)快速應(yīng)用與產(chǎn)業(yè)升級。
未來,移動云將繼續(xù)勇?lián)鷶?shù)字中國建設(shè)主力軍,推動數(shù)字化基礎(chǔ)設(shè)施建設(shè),在數(shù)字經(jīng)濟的浪潮中乘風(fēng)破浪、勇立潮頭。