賽靈思器件經(jīng)過精心設(shè)計,能滿足多種高性能終端系統(tǒng)的計算、效率、成本和靈活性需求。賽靈思
將硬件可編程資源(例如邏輯、走線和 I/O)與靈活、獨(dú)立的集成內(nèi)核模塊(例如 DSP Slice 和 UltraRAM)組合在一起,全部構(gòu)建在領(lǐng)先的工藝技術(shù)上,例如臺積電 (TSMC) 的 16nm FinFET 工藝技術(shù),從而達(dá)到這種平衡。
賽靈思器件具備硬件可編程性和靈活性,意味著底層硬件通過配置可滿足給定工作負(fù)載的需求。隨后,甚至在運(yùn)行時也可通過部分重配置功能方便地重新配置數(shù)據(jù)路徑。圖 4 試圖捕捉賽靈思 All Programmable 器件提供的部分靈活性,但是賽靈思器件的真正靈活性無法通過單張圖片來體現(xiàn)。內(nèi)核(或用戶設(shè)計元素)可以直接連接可編程 I/O、任意其它內(nèi)核、LUTRAM、block RAM 和 UltraRAM、外部存儲器等。
圖 4:All Programmable 數(shù)據(jù)路徑和任意到任意 I/O
賽靈思器件具有獨(dú)特的硬件可編程性,意味著它們不存在特定局限性,例如 SIMT 或固定數(shù)據(jù)路徑。無論是大規(guī)模并行、適度并行、流水線連續(xù)或者混合形式,都能獲得賽靈思器件的計算能力和效率。此外,如果底層算法改變(例如機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的發(fā)展),則平臺也能相應(yīng)調(diào)整。
很多系統(tǒng)和工作負(fù)載中都能看到賽靈思器件發(fā)揮靈活性優(yōu)勢。其中一種工作負(fù)載就是機(jī)器學(xué)習(xí)推斷。機(jī)器學(xué)習(xí)推斷的趨勢之一是向稀疏網(wǎng)絡(luò)過渡。賽靈思器件的用戶已經(jīng)在利用這種趨勢。英偉達(dá)公司本身就是這些用戶中的一個。在最近與英偉達(dá)聯(lián)合編寫的關(guān)于語音辨識的一篇文章中,通過使用賽靈思 FPGA,相對 CPU 實(shí)現(xiàn)了 43 倍速度提升和 40 倍效率提升,相對 NVidia GPU 實(shí)現(xiàn)了 3 倍速度提升和 11.5 倍效率提升??删幊虜?shù)據(jù)路徑還減少了賽靈思 FPGA 批處理需求。批處理是系統(tǒng)的時延 vs 實(shí)時性能的重要決定因素。
從大數(shù)據(jù)角度看,賽靈思器件的靈活性也展現(xiàn)出明顯優(yōu)勢。賽靈思 FPGA 在處理 SQL 工作負(fù)載時非常高效和快速,包括具有復(fù)雜數(shù)據(jù)(例如可變長度字符串)的情況。百度利用基于賽靈思 Kintex® UltraScale™ KU115 器件的加速卡實(shí)現(xiàn)了 25 倍以上的提速。該加速卡的功耗僅 50W,使百度
的解決方案效率是 GPU 方案的 4 倍。對于文本和圖案匹配工作負(fù)載,研究表明基于賽靈思的 RegEx 方案比 CPU 方案快 14.5–18 倍,比 GPU 方案快了將近 3 倍。
基因組分析是另一個切實(shí)的實(shí)例。有人已經(jīng)利用 GPU 來加速基因組分析,可相較于 Intel Xeon CPU 方案提速 6–10 倍。不過,賽靈思 FPGA 的提速效果要高得多,相較于同等 CPU 可提速 80 倍。
賽靈思器件的靈活性還使其成為云服務(wù)提供商的理想選擇,可作為計算平臺即服務(wù)的一部分。多種類型的軟件即服務(wù)都可以利用賽靈思器件的優(yōu)勢。
最后,對于正在努力研發(fā)自動駕駛功能的汽車系統(tǒng)設(shè)計人員來說,賽靈思器件的靈活性能夠?yàn)樗麄兲峁┛蓴U(kuò)展的平臺,用以滿足完全自動駕駛道路上的各種美國汽車工程師學(xué)會 (SAE) 標(biāo)準(zhǔn)。如需了解關(guān)于 SAE 標(biāo)準(zhǔn)的更多信息,敬請訪問SAE 網(wǎng)站。賽靈思器件可以高效處理來自各種源頭的傳感器數(shù)據(jù),例如雷達(dá)、照相機(jī)和超聲波,同時保持系統(tǒng)的實(shí)時/時延目標(biāo)。