a&s專業(yè)的自動化&安全生態(tài)服務(wù)平臺

公眾號

安全自動化

安防知識網(wǎng)

手機(jī)站

大安防供需平臺

搜索
登錄
|
注冊

搜索

全站搜索
AI應(yīng)用搜索

首頁 > 資訊 > 正文

適用于計算密集型系統(tǒng)的出色 FPGA 和 SoC平臺

作者：Cathal Murphy 2017-07-24 15:09 閱讀 4049 來源：智能電子集成評論區(qū)

通過嚴(yán)格的存儲器層級實現(xiàn)軟件定義數(shù)據(jù)路徑

　　與 CPU 類似，GPU 中的數(shù)據(jù)流也由軟件定義，并取決于 GPU 的嚴(yán)格而復(fù)雜的存儲器層級。典型的 GPU 存儲器層級如圖 3 所示。

　　每個線程在寄存器文件中都有自己的存儲器空間，用以存儲線程的本地變量。少量線程(相同的存儲塊中)可通過共享存儲器通信;所有線程都能通過全局或片外存儲器通信。

　　如圖 3 所示，與存儲器訪問有關(guān)的能耗和時延分別增加 100 倍和 80 倍以上，因為數(shù)據(jù)需要遍歷存儲器層級——從寄存器文件到全局存儲器。此外，存儲器沖突不可避免，會增大時延，導(dǎo)致 ALU 閑置，致使計算能力和效率降低。

　　圖 3：典型的 GPU 存儲器層級

　　因此，如果實現(xiàn) GPU 的計算和效率潛能，工作負(fù)載的數(shù)據(jù)流必須準(zhǔn)確映射到 GPU 存儲器層級。工作負(fù)載要具備足夠的數(shù)據(jù)局部性，才能高效地映射到 GPU，實際上這樣的工作負(fù)載很少。對大多數(shù)工作負(fù)載而言，當(dāng)在 GPU 上實現(xiàn)時，實際的計算能力和效率會大打折扣，解決方案的時延也會增加。

　　機(jī)器學(xué)習(xí)推斷作為量化實例，能清楚反應(yīng)出這種數(shù)據(jù)流局限性。GPU 必須批處理，例如 128，以實現(xiàn)高效但時延更長的解決方案。最終，批處理使機(jī)器學(xué)習(xí)處理局部化，但代價是時延增加。GoogLeNet v1 Inference 的 NVidia P40 基準(zhǔn)測試結(jié)果可清楚地反映出該效應(yīng)。對于 GoogLeNet v1，網(wǎng)絡(luò)因 P40 存儲器帶寬而受計算束縛，因此與批處理有關(guān)的存儲器帶寬削減不會產(chǎn)生很大幫助。然而，P40 顯然需要 128 批處理以實現(xiàn) 50% 的 GPU 理論性能，會給系統(tǒng)帶來很大時延。

　　有些情況下，可利用 CPU 對數(shù)據(jù)進(jìn)行預(yù)處理，以便工作負(fù)載更好地映射到 GPU SIMT 架構(gòu)和存儲器層級，但代價是產(chǎn)生更多 CPU 計算和功耗，抵消了 GPU 的優(yōu)勢。

　　有限的 I/O 選項

　　如“GPU 起源和目標(biāo)工作負(fù)載”部分所述，GPU 的角色是作為協(xié)處理器。為了便于與主機(jī)通信，GPU 以往只有一個硬 PCIe® 接口以及幾個片外 DRAM 接口(例如 GDDR5)。最近幾代產(chǎn)品中，有些 GPU 采用硬接口實現(xiàn) GPU 到 GPU 通信。仍然需要使用 CPU 來與網(wǎng)絡(luò)進(jìn)行連接以及向 GPU 分配任務(wù)，這會增加系統(tǒng)功耗，同時會因 PCIe 的有限帶寬而帶來瓶頸問題。例如，英偉達(dá)的 Tesla P40 支持 PCIe 3.0 x16，只能實現(xiàn) 16GB/s 帶寬。

　　GPU 廠商已經(jīng)開始構(gòu)建小型 SoC，例如 NVidia Tegra X1，能夠提供集成 GPU 計算、ARM® 處理器以及一些通用汽車外設(shè)(如 HDMI、MIPI、SIP、CAN 和基礎(chǔ)以太網(wǎng))。這些器件只具備少量計算能力，必須依靠額外的分立 GPU 實現(xiàn)必要的計算能力。然而，分立 GPU 的接口有很大局限性，例如 Tegra X1 僅支持 PCIe 2.0 x4，造成嚴(yán)重瓶頸。額外的 SoC 的功耗會進(jìn)一步降低平臺的效率。

　　片上存儲器資源

　　除了時延、效率和吞吐量方面的不利影響，片外存儲器的帶寬要顯著低于本地/片上存儲器。因此，如果工作負(fù)載需要依靠片外存儲器，不僅片外存儲器的帶寬會成為瓶頸，而且計算資源也會被閑置，從而降低 GPU 提供的計算功能和效率。

　　因此，更有利的做法是采用大型低時遲、高帶寬片上存儲器。再次以機(jī)器學(xué)習(xí)推斷為例，GoogLeNet 共需要 27.2MB 的存儲器，假設(shè) FP32 方案，這樣沒能提供 GPU，這意味著需要片外存儲器。很多情況下需采用高昂的高帶寬存儲器 (HBM) 和批處理，以防止內(nèi)核閑置。如果選擇具有更大型片上存儲器的器件，就能避免 HBM 成本以及額外的時延和功耗問題。

　　功耗范圍

　　GPU 廠商在設(shè)計板卡和 GPU 時通常要適應(yīng) 250W 功耗上限，并依靠有效熱管理來調(diào)節(jié)溫度。針對機(jī)器學(xué)習(xí)推斷市場，英偉達(dá)開發(fā)了滿足 75W 功耗范圍的器件，例如 Tesla M4 和 P4。即使 75W 也遠(yuǎn)超出所允許的系統(tǒng)級功耗和熱范圍。 GPU 的絕對功耗依然是阻礙 GPU 廣泛使用的一大因素。

　　功能安全性

　　GPU 源自消費圖形處理和高性能計算領(lǐng)域，不存在功能安全性要求。隨著 GPU 廠商瞄準(zhǔn) ADAS 市場，功能安全性就變成了優(yōu)先考慮和要求。器件需要全新設(shè)計，以確保實現(xiàn)所需的功能安全性認(rèn)證等級，以便用在 ADAS 系統(tǒng)中。對 GPU 廠商來說這是一個長期學(xué)習(xí)過程，涉及各個方面，需要新的工具和設(shè)備。

1 2 3 4 5 6 7 8 9 下一頁

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟(jì)賠償！敬請諒解！

您可能也喜歡這些文章

參與評論

回復(fù)：

0/300

文明上網(wǎng)理性發(fā)言，評論區(qū)僅供其表達(dá)個人看法，并不表明a&s觀點。

0

推薦專題

熱門排行

關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團(tuán)旗下的專業(yè)媒體平臺，自1994年品牌成立以來，一直專注于安全&自動化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場趨勢的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化，a&s傳媒擁有首屈一指的國際行業(yè)展覽會資源以及豐富的媒體經(jīng)驗，提供媒體、活動、展會等整合營銷服務(wù)。

全球網(wǎng)站
法蘭克福
asmag.com
asmag.com.cn
中國臺灣智慧安防網(wǎng)

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟(jì)賠償！敬請諒解！

粵公網(wǎng)安備 44030402000264號

用戶
反饋

中文字幕日韩一区二区不卡,亚洲av永久无码精品天堂动漫,亚洲av无码国产精品麻豆天美,最新版天堂中文在线,中文字幕视频在线看

適用于計算密集型系統(tǒng)的出色 FPGA 和 SoC平臺

通過嚴(yán)格的存儲器層級實現(xiàn)軟件定義數(shù)據(jù)路徑