“星光智能一號”中國首款嵌入式神經(jīng)網(wǎng)絡處理器芯片誕生
從“深藍”到Alphgo,人工智能如何發(fā)展?
人工智能經(jīng)過了跌宕起伏的發(fā)展過程,從“深藍”對決國際象棋,到Alphago對戰(zhàn)圍棋九段李世石,人工智能都以勝者的姿態(tài)展現(xiàn)在世人面前。不過,兩次人機大戰(zhàn)背后的技術(shù)力量截然不同。第一次人機大戰(zhàn),“深藍”憑借的是超級計算機的運算速度,而第二次人機大戰(zhàn)中,Alphgo依靠的卻是模仿人腦的深度學習神經(jīng)網(wǎng)絡。 然而,有一個問題擺在我們面前,深藍重達1270公斤,有32個CPU,而Alphago更是運行在一個龐大的服務器集群上,每下一盤棋的電費就高達3000元美金!
“星光智能一號”芯片
深度學習只是大型服務器集群的專屬嗎?小型化設備能否集成深度學習系統(tǒng)?中星微國家重點實驗室給出的答案是:前端小型化設備也可以擁有人工智能。 中星微數(shù)字多媒體芯片技術(shù)國家重點實驗室執(zhí)行主任張韻東表示,神經(jīng)網(wǎng)絡處理器(NPU)針對CNN(卷積神經(jīng)網(wǎng)絡,Convolutional Neural Network)算法特性而設計的處理器內(nèi)核,徹底顛覆了馮諾依曼架構(gòu)而采用了“數(shù)據(jù)驅(qū)動”并行計算架構(gòu)。 每個NPU處理器具有4個內(nèi)核(NPU Core),每個內(nèi)核有兩個數(shù)據(jù)流處理器(Dataflow Processor), 每個數(shù)據(jù)流處理器具有8個長位寬或16個短位寬的SIMD(單指令多數(shù)據(jù))運算單元。在一個時鐘周期內(nèi),NPU處理器可同時完成64個長位寬MAC運算或者128個短位寬MAC運算。
每個NPU處理器具有38G Ops的長位寬處理能力或者76G Ops的短位寬處理能力。 NPU的處理性能可以通過組成多核陣列來提升,也可以通過多芯片級聯(lián)的方式進一步擴展,以滿足更復雜的CNN網(wǎng)絡運算的性能需求。每個NPU處理器中同時還包含一個LW Processor(長字處理器),專門用于處理神經(jīng)元網(wǎng)絡中的超越函數(shù)等復雜計算。另外,每個NPU處理器還具有256KB Level-2 Cache,以及整塊數(shù)據(jù)搬移(Block Data Access),片內(nèi)數(shù)據(jù)共享(Data-sharing Between Processor Units),提升數(shù)據(jù)流的吞吐效率。并與軟件配合利用了稀疏數(shù)據(jù)優(yōu)化(Optimization for Sparse Data)等特性提高計算效率。NPU開發(fā)包提供可視化的數(shù)據(jù)流程圖優(yōu)化工具。NPU支持Caffe、TensorFlow等多種神經(jīng)網(wǎng)絡框架, 支持AlexNet、GoogleNet等各類神經(jīng)網(wǎng)絡。 張韻東介紹說,星光智能一號的誕生,將人工智能與大數(shù)據(jù)產(chǎn)業(yè)有機結(jié)合在一起,成千上萬個視頻監(jiān)控設備所產(chǎn)生的數(shù)據(jù),通過前端智能分析、后端深度挖掘,能夠產(chǎn)生巨大的社會效益和經(jīng)濟價值。
一場安防IPC模組方案發(fā)布會引發(fā)的吐槽風波與反思
SVAC編解碼技術(shù)標準:誕生、質(zhì)疑與發(fā)展