據(jù)悉,在2017人工智能計算大會(AICC)上,香港浸會大學(xué)副教授褚曉文發(fā)表了目前主流深度學(xué)習(xí)框架評測的主題報告,報告顯示由浪潮牽頭開發(fā)的開源項目Caffe-MPI,與其他主流框架相比取得了最佳的加速比,并在GoogLeNet網(wǎng)絡(luò)模型中取得最佳性能。
根據(jù)報告顯示數(shù)據(jù),由浪潮開發(fā)的Caffe-MPI 2.0,在4節(jié)點16塊P40 GPU的計算集群上,采用Imagenet數(shù)據(jù)集。采用GoogLeNet模型(Batchsize=128)時,16卡的訓(xùn)練性能為5886張圖片/秒,較單卡提升14.2倍;采用ResNet模型(Batchsize=32)時16卡訓(xùn)練性能為1372張圖片/秒,較單卡提升15.34倍,擴展效率高達96%。Caffe-MPI超越了CNTK和MXNet,成為加速比最好的深度學(xué)習(xí)框架,也是在GoogLeNet模型下性能最好的深度學(xué)習(xí)框架。
香港浸會大學(xué)副教授褚曉文表示,目前在測的所有深度學(xué)習(xí)框架中,浪潮Caffe-MPI展現(xiàn)出最好的加速比性能,相信對于所有需要將Caffe擴展到多機環(huán)境的用戶,浪潮Caffe-MPI將是最好的選擇。
Caffe-MPI 2.0出色的加速比得益于在并行算法設(shè)計上的創(chuàng)新突破。Caffe-MPI設(shè)計了兩層通信模式:節(jié)點內(nèi)的GPU卡間通信及節(jié)點間的RDMA全局通信,通過調(diào)用NCCL 2.0實現(xiàn)。這種設(shè)計極大降低了網(wǎng)絡(luò)通信的壓力,并克服了傳統(tǒng)通信模式中PCIE與網(wǎng)絡(luò)之間帶寬不均衡的影響,非常適合現(xiàn)在的高密度GPU服務(wù)器。
同時,Caffe-MPI 2.0還設(shè)計實現(xiàn)了深層神經(jīng)網(wǎng)絡(luò)模型各層計算和通訊的異步,合并了多層待通信數(shù)據(jù)然后在到達一定量級時進行通信,有效避免了層內(nèi)部數(shù)據(jù)量較小時的通信延遲。此外,Caffe-MPI 2.0還提供了更好的cuDNN兼容性,用戶可以無縫調(diào)用最新的cuDNN版本實現(xiàn)更大的性能提升。這些設(shè)計細節(jié)使得Caffe-MPI 2.0能夠在當前流行的深度學(xué)習(xí)框架下的集群訓(xùn)練中,實現(xiàn)近似線性的擴展。
Caffe-MPI是首個集群并行版的Caffe深度學(xué)習(xí)計算框架,基于伯克利Caffe框架,由浪潮主導(dǎo)開發(fā)并已在Github上開源公布所有代碼,其采用成熟的MPI技術(shù)對Caffe予以數(shù)據(jù)并行的優(yōu)化,目標是解決深度學(xué)習(xí)計算模型訓(xùn)練的效率問題。
2017人工智能計算大會(AI Computing Conference簡稱AICC)由中國工程院信息與電子工程學(xué)部主辦、浪潮集團承辦,旨是圍繞AI當下需求及未來發(fā)展,從計算創(chuàng)新著眼,聯(lián)合從事AI計算及應(yīng)用的公司、用戶、專家、開發(fā)者共同打造探討促進AI計算的交流合作平臺,推動AI產(chǎn)業(yè)的可持續(xù)發(fā)展。本次有海內(nèi)外數(shù)十位知名專家圍繞AI計算創(chuàng)新主題進行研討報告,吸引了來自各行業(yè)的數(shù)千名專業(yè)人士參與。