隨著AI在各個領域的持續(xù)深入應用,AI技術與傳統(tǒng)行業(yè)不斷的融合,智能時代成為世界新起點。而城市大腦、安防視頻結構化、人臉識別、智慧制造、金融建模、智能機器人、新材料發(fā)現(xiàn)、腦神經(jīng)科學、醫(yī)學影像分析等,人工智能時代的科學研究和工程實踐都極度依賴計算力的支持。
在智能安防相關項目中,由于攝像頭數(shù)量巨大、品牌龐雜、同一路圖像需要多種結構化分析、結構化前端可執(zhí)行的結構化內容有限、非結構化數(shù)據(jù)量大等問題,大多數(shù)用戶仍然主要依靠后端進行數(shù)據(jù)結構化處理。
今天我們給大家?guī)淼氖且豢钊碌囊劳袊aAI芯片設計的超強算力云端AI計算加速卡,比特大陸算豐SC5+,其在評測中體現(xiàn)出的高算力、高性能功耗比、強勁視頻解碼能力、全鏈路加速能力、友好的工具鏈等諸多讓人眼前一亮的特性,都使得該設備成為一款云端AI計算基礎設施的上佳選擇。
標準規(guī)范設計 廣泛兼容適配
此次測試編輯拿到手上的比特大陸算豐SC5+云端AI計算加速卡外觀設計簡約大氣,采用標準半高半長尺寸設計,通過實物比較,該加速卡和英偉達的P4、T4等是同一規(guī)格尺寸,據(jù)比特大陸技術人員介紹,該加速卡還可以和英偉達的P4、T4等在同一臺算力服務器中混合使用,充分地考慮了客戶的利舊應用。
和華為Atlas300 AI加速卡的設計很相似,SC5+加速卡上搭載了3顆比特大陸自研的BM1684高性能計算芯片,該芯片已經(jīng)是比特大陸最近三年中推出的第三代云端AI芯片,其可靠性和穩(wěn)定性都已經(jīng)得到了充分的市場驗證和認可。
另外,該加速卡還可適配各類x86服務器,國產CPU系統(tǒng)如飛騰、申威、兆芯等;適配各類主流Linux操作系統(tǒng)(CentOS/Ubuntu /Debian),包括國產麒麟、Deepin;同時算豐SC系列加速卡產品也是國內首批支持百度PaddlePaddle深度學習開源框架的硬件產品之一。在2020年3月,百度的Paddle Lite推理開源框架宣布和比特大陸實現(xiàn)全面適配。
令人驚喜的澎湃算力
天下武功,唯快不破。對安防各類以視頻、圖片為核心AI分析要素的業(yè)務場景而言,每秒的圖片吞吐量(image/second)指標至關重要,這意味著單張云端加速卡最大的峰值AI分析處理能力指標越高算力越強。
從標稱算力來看,該加速卡可提供高達105.6T INT8算力(Winograd 加速器打開的條件下),以及6.6T FP32算力,支持高精度的浮點計算和大容量的整型數(shù)值計算。
a&s此次選擇了評價AI芯片最常用的RESNET50開源模型,采用業(yè)界通用的ImageNet標準的公開數(shù)據(jù)集(5萬張圖片),在SC5+加速卡標稱最強的INT8計算性能上進行了實跑測試。在INT8,RESNET 50,Batch=4條件下SC5+圖片吞吐性能達到3000+ image/second,超過NVIDIA T4約10%。其他各類模型下的吞吐性能也同樣超過T4(如下圖)。在Mobilenet v1模型下,SC5+的吞吐性能則更是達到了驚人的9000張以上。
算力性能對比:TESLA T4 vs SC5+
超高算力獲得比
內外兼修,方成高手。通過計算得知,SC5+加速卡在VGG16等模型下的實際算力輸出可以達到70T以上,這意味著其所使用的BM1684芯片的實際利用率達到了驚人的75%以上,相比之下,英偉達GPU的利用率則處于40%-50%的區(qū)間。
以VGG19算力性能實測為例:
初始設置:輸入人臉圖片數(shù)量為50,000張(分辨率為224×224,RGB 3通道模式),線程數(shù)為3;計算精度:整數(shù)數(shù)據(jù)計算INT8;
VGG19模型設置:
基于Caffe 1.0.0-rc3(Convolutional Architecture for Fast Feature Embedding,卷積神經(jīng)網(wǎng)絡框架),Batch Size為32,其余為配置文件默認參數(shù),模型單次運行所消耗的算力為39.26Gops;
通過上述環(huán)境配置,可以精確計算出,在進行標準的VGG19模型運算時,SC5+加速卡輸出的實際算力為75.2T。
換句話說,雖然英偉達的GPU標稱算力指標遠遠高于比特大陸提供的SC5+加速卡,而通過實測得出的結論來看,實際的算力獲得比顯然是比特大陸遙遙領先,由此也可以看出比特大陸的AI芯片架構設計確實有其獨到之處。對最終客戶來說,同樣花一塊錢,實際獲得的算力遠遠超過同類產品,相信所有的客戶都會愿意自己花費真金白銀買到的是實際算力而非是紙面上標稱很高的算力指標。
優(yōu)勢盡顯的性能功耗比
同樣的,在性能功耗比方面,單位功耗下的SC5+輸出實際算力超出NVIDIA T4的指標接近一倍,證明SOPHON AI芯片框架的能效比優(yōu)勢明顯(如下圖)。
性能功耗比:TESLA T4 vs SC5+
強大的視頻解碼能力
對安防應用場景而言,大量高清網(wǎng)絡視頻流的接入是最普遍應用的場景,攝像頭的圖像格式更是與日俱新,不斷提升,從200萬,300萬,500萬,到現(xiàn)在的800萬乃至千萬級像素的網(wǎng)絡攝像機已經(jīng)開始應用,AI解析首先需要對這些超高分辨率的視頻或者圖像進行解碼還原,再進行各類AI算法的解析計算。
SC5+具備高達2880fps,約合114路1080P@25fps高清視頻流的硬解碼能力,堪稱國產解碼能力最強的AI加速卡。最大解碼分辨率可支持到8K級別(半實時)。
在圖片解碼能力方面,SC5+單卡具備1440 img/s以上的圖片解碼能力。最大圖片解碼分辨率可以達到32768*32768 pixels。這使得SC5+ 在解析某些超大型的拼接圖像時,如工業(yè)流水線的長畫幅連續(xù)檢測圖像、高分辨率全景攝像機生成的多畫面拼接圖像等,具備充足的解碼能力。
高度可擴展的視頻轉碼能力
SC5+具備支持將接入的全部視頻資源轉換為不低于32Kbps低碼流(25幀、CIF分辨率)和不低于1Mbps高碼流(25幀)兩種符合H.264標準的碼流。并可隨板卡的數(shù)量增加進行線性擴展,支持超大容量的視頻接入轉碼。
視頻轉碼功能在當前主流AI加速卡上并不多見,對于視頻上云需求越來越普遍而帶寬條件又不能滿足需求的視頻大聯(lián)網(wǎng)系統(tǒng),比如高速公路、電力、森林防火等跨地域分散廣密度低的視頻監(jiān)控場景,SC5+ AI加速卡無疑是非常好的選擇。
人臉識別算法實測性能強大
測試人員在PC服務器上安裝1塊SC5+加速卡。首先接入16路網(wǎng)絡視頻流,對視頻進行全鏈路的視頻解碼、視頻前后處理、人臉檢測和識別比對等操作,在16路1080P視頻流輸入的情況下,每路視頻畫面實時呈現(xiàn)多個測試人臉圖像,SC5+加速卡的單顆芯片可以完全實時的滿幀處理人臉檢測、跟蹤、比對,并輸出識別比對結果(如下圖)。
實測中,將輸入視頻路數(shù)增加到48路1080P,每路視頻畫面同時呈現(xiàn)多個測試人臉圖像,所有的AI計算任務被均勻分配到3顆計算芯片上,單張板卡可以完全實時的滿幀處理48路人臉檢測和跟蹤(如下圖)。
此次測試僅僅是滿幀處理情況,并未做業(yè)務流程的部署優(yōu)化,所使用的人臉算法也是基于開源算法修改的測試算法。如果采用AI用戶的自有算法和適度優(yōu)化后,可以實現(xiàn)更高路數(shù)的人臉識別和視頻結構化分析能力,可以說該加速卡的端到端的全流程加速能力確實十分強大。
簡單易上手的系統(tǒng)軟件
本次測試中,測試人員也體驗了比特大陸的AI開發(fā)工具包BMNNSDK2,比特大陸的算豐AI芯片的多種產品(板卡、模組、邊緣盒子)均使用同一套統(tǒng)一的工具鏈和系統(tǒng)軟件。
其中的工具鏈對開發(fā)人員非常友好,支持Caffe、TensorFlow、Pytorch、Mxnet、Darknet、PaddlePaddle等眾多的深度學習框架,編譯和校準工具自動化程度很高,非常易用;
伴隨SC5+加速卡,比特大陸同步提供了底層驅動程序、編譯器、推理部署工具、BM-SMI性能監(jiān)視工具等一系列軟件工具;
對應的開發(fā)SDK接口軟件包中包括神經(jīng)網(wǎng)絡運行庫、視頻編解碼庫、圖像編解碼庫、圖像處理庫等;為了方便部分初級開發(fā)者和應用集成開發(fā)者,比特大陸還提供專門用于上層應用系統(tǒng)對接的Python開發(fā)接口,開發(fā)代碼量從幾百上千行簡化到幾行幾十行;而對于專業(yè)開發(fā)者,比特大陸提供了BMLANG面向TPU的高級編程模型,可以充分地支持自定義算子在AI芯片上實現(xiàn)加速運算。
產品特色
1、硬件采用標準化規(guī)范設計,同時還可與其他加速卡混合使用,利舊性強;
2、兼容各類服務器和操作系統(tǒng),應用場景廣泛。
3、具有超強算力、超高算力獲得比和性能功耗比,性價比高。
4、強大的視頻解碼能力,每張卡支持約114路1080P@25fps硬解碼,最大解碼分辨率可達8K。
5、完備易用的工具鏈,AI用戶二次開發(fā)方便快捷。
點評
武林至尊,寶刀屠龍,倚天不出,誰與爭鋒。在AI+安防這個江湖中,英偉達無疑是號令江湖已久,而本次我們測試的比特大陸SC5+計算加速卡就是初次亮相江湖的倚天劍,無論在各個方面的表現(xiàn)都達到并有所超越國際主流產品的水平,算力強勁,利用率高,全流程加速能力強大,易用易維護,確實是一款云端AI計算基礎設施建設的首選產品。
即使有了天下最神奇的劍法,還需要一把神兵利劍來成就江湖中的高手劍客。預計比特大陸算豐SC5+會在眾多的智慧城市、城市大腦、云端算力中心、雪亮工程、醫(yī)療影像、智慧制造等領域,加速各類型AI應用場景的普及。
重要規(guī)格參數(shù)
算力 6.6萬億次單精度浮點運算;52.8萬億次整數(shù)計算;105.6萬億次整數(shù)計算(Winograd加速下)
AI解析能力 48-96路AI分析
解碼能力 2880fps@1080P高清視頻解碼;1440fps高清圖片解碼
AI芯片 比特大陸算豐BM1684,自研第三代芯片,12nm制程;
尺寸接口 標準半高半長,PCIE 3.0 X16接口
(本次測試為a&s與廠家共同內部測試,產品后續(xù)發(fā)布時間敬請期待?。?/em>