原始計(jì)算能力
與 GPU 擁護(hù)者的說法不同,單個(gè)賽靈思器件能提供強(qiáng)大的原始計(jì)算能力,例如 Virtex® UltraScale+™ XCVU13P FPGA 的性能達(dá)到 38.3 INT8 TOP/s。最先進(jìn)的 NVidia Tesla P40 加速卡以基礎(chǔ)頻率運(yùn)行時(shí)提供相似的 40 INT8 TOP/s 原始計(jì)算能力,但功耗是賽靈思解決方案的 2 倍多。賽靈思器件的靈活性和片上存儲(chǔ)器能針對(duì)很多工作負(fù)載和應(yīng)用顯著提高計(jì)算能力。
此外,賽靈思器件的靈活性意味著能夠支持各種數(shù)據(jù)類型精度,例如 FP32、INT8、二進(jìn)制和定制。例如,針對(duì)二值化神經(jīng)網(wǎng)絡(luò),賽靈思提供 500TOPs/s 的超高二進(jìn)制計(jì)算能力(假設(shè) 2.5 LUT/運(yùn)算),相當(dāng)于 GPU 典型性能的 25 倍。有些精度最適合使用 DSP 資源,有些最適合在可編程邏輯中實(shí)現(xiàn),還有些適合將二者結(jié)合起來使用。這種靈活性確保器件的計(jì)算和效率隨著精度降低而調(diào)整,一直到二進(jìn)制運(yùn)算。
機(jī)器學(xué)習(xí)領(lǐng)域的大量研究都從計(jì)算、精度和效率角度來研究最佳精度。無論最佳點(diǎn)在哪,對(duì)于給定工作負(fù)載,賽靈思器件的計(jì)算能力和效率都能隨之調(diào)整,以實(shí)現(xiàn)降低精度后的所有優(yōu)勢。
幾年來,很多 FPGA 用戶實(shí)現(xiàn)了脈動(dòng)陣列處理設(shè)計(jì),以便針對(duì)多種工作負(fù)載實(shí)現(xiàn)最佳性能,包括機(jī)器學(xué)習(xí)推斷。為了確保賽靈思 FPGA 和 SoC 用戶能夠在現(xiàn)有的賽靈思器件上針對(duì)此類工作負(fù)載將可實(shí)現(xiàn)的計(jì)算能力和效率實(shí)現(xiàn)最大化,賽靈思為此提供多種資源。這些資源包括 INT8 最優(yōu)化以及將 DSP 陣列映射到 block RAM 和 UltraRAM 的最高效存儲(chǔ)器層級(jí)。如需了解有關(guān)這些資源的更多信息,敬請聯(lián)系您所在地的賽靈思銷售代表。
為了針對(duì)當(dāng)今的深度學(xué)習(xí)工作負(fù)載提高可用的計(jì)算能力和效率,英偉達(dá)在 Volta 架構(gòu)中以 Tensor Core 的形式硬化了類似功能。然而,深度學(xué)習(xí)工作負(fù)載會(huì)隨時(shí)間演進(jìn),因此 Tensor Core 架構(gòu)也可能需要改變,而且 GPU 用戶需要等待和購買新的 GPU 硬件。
效率和功耗
從系統(tǒng)級(jí)角度看,計(jì)算平臺(tái)必須在給定的功率和熱范圍之內(nèi)提供最大計(jì)算能力。為滿足這一需求,計(jì)算平臺(tái)需要:
· 處于允許的功率范圍內(nèi)
· 能夠在功率預(yù)算內(nèi)將計(jì)算能力最大化
賽靈思提供豐富的 All Programmable 器件,這使用戶能選擇與功率和熱范圍最匹配的器件。此外,賽靈思的 UltraScale+ 器件具有低壓模式 (VLOW),能將功耗降低 30%,效率提升 20%。
如表 1 所示,賽靈思器件針對(duì)固定精度數(shù)據(jù)類型提供從原始計(jì)算角度看最高效的通用計(jì)算平臺(tái)。這主要是因?yàn)橘愳`思 FPGA 架構(gòu)中的處理開銷更低。例如,GPU 需要圍繞計(jì)算資源實(shí)現(xiàn)更多復(fù)雜性,以便實(shí)現(xiàn)軟件可編程功能。對(duì)于當(dāng)今的深度學(xué)習(xí)工作負(fù)載的張量運(yùn)算,英偉達(dá)的 Tesla V100 憑借硬化的 Tensor Core 能實(shí)現(xiàn)與賽靈思 FPGA 和 SoC 差不多的效率。然而,深度學(xué)習(xí)工作負(fù)載也在快節(jié)奏演進(jìn),因此無法確定英偉達(dá)的 Tensor Core 能夠針對(duì)深度學(xué)習(xí)工作負(fù)載保持多久的高效性。顯然對(duì)于其他通用工作負(fù)載,NVidia V100 也存在效率方面的挑戰(zhàn)。
表 1:器件效率假設(shè) 90% 器件利用率和 80% 有效時(shí)鐘周期
鑒于本白皮書之前介紹的局限性,對(duì)于真實(shí)的工作負(fù)載與系統(tǒng),GPU 很難接近表 1 中所給出的數(shù)字。
賽靈思器件的靈活性及其他優(yōu)勢,加之賽靈思最新軟件開發(fā)堆棧,能確保基于賽靈思的解決方案為大量最終應(yīng)用和工作負(fù)載實(shí)現(xiàn)顯著提高的效率。
賽靈思器件的附加優(yōu)勢——例如靈活性和片上存儲(chǔ)器——能確保賽靈思器件的效率被大量最終應(yīng)用和工作負(fù)載所實(shí)現(xiàn)。