隨著神經(jīng)網(wǎng)絡越來越復雜,計算量越來越龐大,神經(jīng)網(wǎng)絡的架構也不斷發(fā)生變化,因而產(chǎn)生了可用于嵌入式系統(tǒng)的高性能、通用神經(jīng)網(wǎng)絡處理方案需求??请娮?Cadence Design Systems)稍早前公布了新的獨立神經(jīng)網(wǎng)絡DSP IP內(nèi)核Vision C5技術細節(jié),這個據(jù)稱是業(yè)內(nèi)首款獨立的神經(jīng)網(wǎng)絡DSP可運行于所有的神經(jīng)網(wǎng)絡層,其計算能力達到1TMAC /秒,硅面積為1mm2。
Vision C5 DSP針對視覺、激光雷達和傳感器融合應用進行了優(yōu)化,瞄準汽車電子、監(jiān)控、無人機和移動裝置市場。這些新興市場的共通特色是需要極低功耗,同時需要高度可編程,以應對產(chǎn)品開發(fā)的靈活性和降低風險。
神經(jīng)網(wǎng)絡DSP vs.神經(jīng)網(wǎng)絡加速器
嵌入式視覺聯(lián)盟的創(chuàng)始人Jeff Bier指出,在真實世界中,深度學習的應用程序非常豐富多樣,計算需求也極具挑戰(zhàn)性。
在汽車、無人機和安全系統(tǒng)中,基于攝像機的視覺系統(tǒng)需要兩種基本類型的視覺優(yōu)化計算。首先,使用傳統(tǒng)計算攝影/成像算法增強了攝像機的輸入;其次是基于神經(jīng)網(wǎng)絡的識別算法用于執(zhí)行對象檢測和識別?,F(xiàn)有的神經(jīng)網(wǎng)絡加速器解決方案是連接到成像DSP的硬件加速器,神經(jīng)網(wǎng)絡代碼在DSP上運行一些網(wǎng)絡層并將卷積層卸除到加速器之間進行拆分。這種方法不僅效率低下,而且會消耗許多不必要的電力。
圖片來源:Cadence Design System公司
而Vision C5 DSP架構解決了這個問題,它針對神經(jīng)網(wǎng)絡進行了優(yōu)化,可加速所有神經(jīng)網(wǎng)絡計算層(卷積、完全連接、匯集和歸一化),而不僅僅是卷積函數(shù)。這使得主要的視覺/成像DSP可獨立運行圖像增強應用,而Vision C5 DSP則運行推理任務(inference task)。
通過消除神經(jīng)網(wǎng)絡DSP和主要視覺/成像DSP之間的無關數(shù)據(jù)移動,Vision C5 DSP提供比競爭神經(jīng)網(wǎng)絡加速器更低功率的解決方案。它還為神經(jīng)網(wǎng)絡提供了一個簡單的單處理器編程模型。
Cadence的Tensilica營銷高級總監(jiān)Steve Roddy認為,今天許多工程人員難以抉擇神經(jīng)網(wǎng)絡平臺的情況可望在未來幾年內(nèi)獲得改善。“這是因為當前所有的替代方案都要做很多不必要的性能折衷,而我們必須讓神經(jīng)網(wǎng)絡處理器永遠在線、降低其功耗,而且要令其在每個圖像上都能快速運行。作為通用神經(jīng)網(wǎng)絡DSP,新的Vision C5易于集成和非常靈活,同時能比CNN加速器,GPU和CPU提供更好的電源效率。”
作為獨立DSP引擎,Vision C5具有1,024個8位MAC或512個16位MAC,可以在8位和16位分辨率下實現(xiàn)更好的性能,這個IP具有128路8位SIMD或64路16位SIMD的VLIW SIMD架構,適用于多核設計,并集成了iDMA和AXI4接口。
為了適應不同的應用需求,Vision C5 DSP支持可變內(nèi)核大小、深度和輸入尺寸,同時也適應幾種不同的系數(shù)壓縮/解壓縮技術,并能在新的層次的支持下進行添加。相比之下,硬件加速器提供了一個剛性的解決方案,因為可重新編程性更加有限。
據(jù)表示,Cadence稱與商用GPU相比,Vision C5 DSP在知名的AlexNet CNN性能基準上提高了6倍,在初始版V3 CNN性能基準上提高了9倍。為了方便開發(fā)者,Vision C5 DSP配備了Cadence神經(jīng)網(wǎng)絡映射器工具集,它將任何采用Caffe和TensorFlow等工具訓練的神經(jīng)網(wǎng)絡映射到Vision C5 DSP的代碼中,利用一套全面的手動優(yōu)化神經(jīng)網(wǎng)絡庫函數(shù)。