隨著谷歌人工智能AlphaGo與李世石的五局人機(jī)大戰(zhàn)落下帷幕,阿法狗最終以4:1大比分戰(zhàn)神李世石,人們對(duì)于阿法狗的好奇心被推向了高潮。阿法狗也將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)即DNN的強(qiáng)大能力展示在了人們面前。
什么是DNN?
那到底什么是DNN呢?DNN是近年人工智能領(lǐng)域的熱門,在語(yǔ)音識(shí)別、自動(dòng)駕駛、筆跡識(shí)別等方面的應(yīng)用都極為成功。在人工智能領(lǐng)域,神經(jīng)網(wǎng)絡(luò)是一種模擬生物神經(jīng)系統(tǒng)的模型,由許多單向連接的神經(jīng)元組成,可根據(jù)鏈接神經(jīng)元的各種參數(shù)將輸入信號(hào)轉(zhuǎn)換為輸出信號(hào)。相比于普通的神經(jīng)網(wǎng)絡(luò),深度神經(jīng)網(wǎng)絡(luò)(DNN)使用隱含的多層復(fù)雜結(jié)構(gòu),以及非線性變換,來(lái)表達(dá)對(duì)數(shù)據(jù)的高度抽象。這些特征更接近于人類大腦,更容易實(shí)現(xiàn)人類大腦的某些功能,例如下圍棋所需要的腦功能。
阿法狗應(yīng)用了兩種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),即“策略網(wǎng)絡(luò)”和“價(jià)值網(wǎng)絡(luò)”來(lái)擬合局面策略函數(shù)和評(píng)估函數(shù),可以說(shuō)這就是阿法狗的兩個(gè)大腦。阿法狗的勝利引爆了DNN這一概念,在大數(shù)據(jù)當(dāng)?shù)赖慕裉?,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)已經(jīng)被應(yīng)用到非常多的領(lǐng)域,成為了揭示科學(xué)原理、升級(jí)現(xiàn)有產(chǎn)業(yè)商業(yè)模式的重要工具。
| DNN如何應(yīng)用在手勢(shì)識(shí)別中呢?
那么如此炫酷的DNN能否應(yīng)用在大熱的VR行業(yè)?答案是肯定的。目前VR領(lǐng)域中應(yīng)用到DNN技術(shù)的包括語(yǔ)音識(shí)別、手勢(shì)識(shí)別等方面,筆者在這里主要介紹一下手勢(shì)識(shí)別算法中的DNN。
傳統(tǒng)的手勢(shì)識(shí)別方法主要有兩種:基于數(shù)據(jù)手套的手勢(shì)識(shí)別方法、基于計(jì)算機(jī)視覺(jué)的手勢(shì)識(shí)別方法。
而基于計(jì)算機(jī)視覺(jué)的手勢(shì)識(shí)別方法以其不依賴于設(shè)備,更自然的人機(jī)交互效果,更好的沉浸感成為當(dāng)今研究的熱點(diǎn)。基于計(jì)算機(jī)視覺(jué)手勢(shì)識(shí)別從攝像機(jī)中得到手勢(shì)圖像信息,經(jīng)過(guò)適當(dāng)?shù)臄?shù)據(jù)預(yù)處理之后從圖像中分割出手勢(shì),對(duì)分割得到的手勢(shì)進(jìn)行特征提取后,利用已經(jīng)建立好的手勢(shì)模板進(jìn)行分類。
傳統(tǒng)的分類方式有模板匹配、基于指尖檢測(cè)方法等,但這些方法都需要人工從圖像提取出目標(biāo)特征,編寫模板來(lái)匹配。隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)被提出,基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(DNN)的手勢(shì)識(shí)別也應(yīng)運(yùn)而生,這種手勢(shì)識(shí)別算法相比于傳統(tǒng)手勢(shì)識(shí)別算法在各個(gè)方面均有非常大的優(yōu)勢(shì)。
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的工作方式來(lái)自于同人腦視覺(jué)機(jī)理的類比學(xué)習(xí),這種從原始輸入開(kāi)始向更高層次不停抽象迭代的過(guò)程賦予了該模型高度抽象的能力,使得深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能夠非常有效地從大量有標(biāo)簽數(shù)據(jù)中深度提取數(shù)據(jù)的特征信息,充分挖掘數(shù)據(jù)的內(nèi)在屬性和有價(jià)值的表征數(shù)據(jù),然后組合低層特征為更加抽象的高層特征,而高級(jí)特征則是數(shù)據(jù)更高級(jí)、更本質(zhì)的描述,由此可以在分類問(wèn)題上得到更優(yōu)的結(jié)果。
眾所周知,VR行業(yè)面臨的一大技術(shù)難題就是海量數(shù)據(jù)的處理,對(duì)于手勢(shì)識(shí)別技術(shù)更是如此,手部有非常多的關(guān)節(jié),需要非常強(qiáng)的識(shí)別能力才可以準(zhǔn)確的識(shí)別每個(gè)精細(xì)動(dòng)作。而深度學(xué)習(xí)模型的多隱藏層結(jié)構(gòu)使得模型能有效利用海量數(shù)據(jù)進(jìn)行訓(xùn)練,所使用數(shù)據(jù)越多模型性能越高,非常適合在VR環(huán)境下做手勢(shì)識(shí)別。
基于計(jì)算機(jī)視覺(jué)的手勢(shì)識(shí)別中,傳統(tǒng)算法無(wú)法直接有效地從圖像中提取出對(duì)目標(biāo)有用的信息。而深度學(xué)習(xí)的學(xué)習(xí)能力卻異常強(qiáng)大,即使是復(fù)雜低分辨率圖像也能夠很好的提取出目標(biāo)深度特征?;贒NN的手勢(shì)識(shí)別所需的圖像背景并不需要固定,算法甚至在一定范圍內(nèi)允許運(yùn)動(dòng)背景的存在,從而提高了識(shí)別的環(huán)境耐受力和精細(xì)度。
| DNN在手勢(shì)識(shí)別中如何實(shí)現(xiàn)?
接下來(lái)筆者將介紹一下具體的實(shí)現(xiàn)方法。
傳統(tǒng)的識(shí)別系統(tǒng)流程大體上可以分成檢測(cè)、識(shí)別、跟蹤這三個(gè)步驟,具體實(shí)現(xiàn)流程是:傳感器獲取信息,預(yù)處理,特征提取,特征選擇,再到最后的推理、預(yù)測(cè)或者識(shí)別。通常認(rèn)為最后一部分是屬于機(jī)器學(xué)習(xí)的部分,這部分是整個(gè)系統(tǒng)的精髓所在,它能否從數(shù)據(jù)中學(xué)到有效的知識(shí)直接關(guān)系到整個(gè)系統(tǒng)能否按照人們期望的那樣工作,但同時(shí)也存在前期特征提取或者選擇不好的情況,這樣會(huì)影響系統(tǒng)性能。
而基于DNN的手勢(shì)識(shí)別就是讓機(jī)器自己去提取特征,不需要手工特征提取,強(qiáng)大的學(xué)習(xí)能力使得模型在復(fù)雜背景下也能取得理想效果,其手勢(shì)識(shí)別過(guò)程如下:
首先創(chuàng)建手勢(shì)識(shí)別采集系統(tǒng),做運(yùn)動(dòng)目標(biāo)檢測(cè),并在檢測(cè)的同時(shí)提取出前景的即運(yùn)動(dòng)目標(biāo)的部分信息,獲得手勢(shì)圖像。采集到手勢(shì)圖像之后根據(jù)不同應(yīng)用場(chǎng)景選擇合適的網(wǎng)絡(luò)協(xié)議,把數(shù)據(jù)傳輸?shù)接?jì)算平臺(tái)利用深度學(xué)習(xí)算法進(jìn)行復(fù)雜背景手勢(shì)識(shí)別,并最終給出手勢(shì)識(shí)別結(jié)果。
| 基于DNN實(shí)現(xiàn)的VR會(huì)是什么樣的?
基于DNN算法的思想實(shí)現(xiàn)的VR產(chǎn)品,并使用單機(jī)GPU方法來(lái)加速深度網(wǎng)絡(luò)的訓(xùn)練和識(shí)別工作。手勢(shì)識(shí)別模組可以使用深度攝像頭實(shí)現(xiàn)手部近距離3D成像,結(jié)合DNN自主研發(fā)了一套數(shù)據(jù)處理算法,實(shí)現(xiàn)了高精度實(shí)時(shí)手部動(dòng)作識(shí)別,既能跟蹤單個(gè)手指,識(shí)別每個(gè)手指細(xì)微的動(dòng)作,也可擴(kuò)展至跟蹤多只手。
這樣的VR產(chǎn)品的手勢(shì)識(shí)別具有捕捉精度高,響應(yīng)速度快,靈敏度高,可以不受環(huán)境光線強(qiáng)弱影響,室內(nèi)室外都可以使用。
不過(guò)目前市面上幾乎沒(méi)有基于DNN的手勢(shì)識(shí)別產(chǎn)品。筆者所知的G-Wearables自主研發(fā)的StepVR產(chǎn)品就是基于DNN算法實(shí)現(xiàn)的,但還未見(jiàn)到實(shí)物,可以期待一下。