在談?wù)撚?jì)算機(jī)視覺(jué)時(shí),“追蹤”一詞經(jīng)常出現(xiàn)。追蹤的種類有很多,具體需要取決于追蹤內(nèi)容,追蹤方式,以及要實(shí)現(xiàn)的目標(biāo)。在這篇博文中,英特爾向我們介紹了不同類型的追蹤,它們?cè)谏蠈臃矫娴墓ぷ鞣绞?,以及潛在的用例?/p>
1. 骨骼追蹤
骨骼追蹤的存在已有一段時(shí)間,而你以前可能已經(jīng)見(jiàn)過(guò),只是沒(méi)有意識(shí)到而已。微軟Kinect是最早的消費(fèi)者骨骼追蹤示例之一,它主要是利用人體運(yùn)動(dòng)數(shù)據(jù)來(lái)支持玩家與游戲交互。
骨骼追蹤系統(tǒng)通常使用深度攝像頭來(lái)獲得最可靠的實(shí)時(shí)結(jié)果,但同時(shí)可以使用帶有開(kāi)源軟件的2D攝像頭并以較低的幀頻追蹤骨骼。
簡(jiǎn)而言之,骨骼追蹤算法可識(shí)別一個(gè)或多人的存在,以及他們頭部,身體和四肢的位置。某些系統(tǒng)同時(shí)可以追蹤手部或特定手勢(shì),但并非所有骨骼追蹤系統(tǒng)都如此。大多數(shù)系統(tǒng)可以識(shí)別一系列的關(guān)節(jié),如肩膀、肘部、腕部。然后,系統(tǒng)將在所有已識(shí)別的關(guān)節(jié)之間繪制線條,并用某種元素來(lái)代表頭部/頸部。
任何種類的深度攝像頭都可以幫助骨骼追蹤系統(tǒng)消除重疊/遮擋對(duì)象或肢體之間的歧義,并且相較于純2D攝像頭算法進(jìn)一步適應(yīng)不同的光照條件。今天,一系列的骨骼追蹤解決方案都支持英特爾實(shí)感深度攝像頭。
對(duì)于更多關(guān)于骨骼追蹤的見(jiàn)解,你可以參閱以下這個(gè)視頻(Philip Krejov介紹了用英特爾實(shí)感深度攝像頭來(lái)在VR/AR追蹤進(jìn)行身體追蹤)。
2. 手勢(shì)追蹤和手部追蹤
手勢(shì)追蹤和手部追蹤容易混淆,而它們確實(shí)存在共同點(diǎn):兩者都允許用戶使用手部來(lái)與某種形式的數(shù)字內(nèi)容進(jìn)行交互。但是,我們通??梢詫⑹謩?shì)追蹤視為僅限于配合手指姿態(tài)的特定手形,比如說(shuō)拳頭或OK手勢(shì)。這種系統(tǒng)的優(yōu)點(diǎn)是,它通常可以以高置信度識(shí)別手勢(shì),缺點(diǎn)是人類用戶通常最多只能記住五個(gè)手勢(shì)及其代表意思。要訓(xùn)練用戶掌握具有更多手勢(shì)的復(fù)雜系統(tǒng),并且不會(huì)混淆,這通常需要更長(zhǎng)的時(shí)間。
手部追蹤系統(tǒng)通常沒(méi)有手勢(shì)追蹤系統(tǒng)明確,而它與骨骼追蹤類似。大多數(shù)手部追蹤系統(tǒng)一般是識(shí)別手指關(guān)節(jié)和骨骼,通常是用某種深度攝像頭來(lái)幫助解決遮擋和歧義情況。與單個(gè)手勢(shì)系統(tǒng)相比,手部追蹤系統(tǒng)允許用戶與數(shù)字內(nèi)容進(jìn)行更復(fù)雜的交互,因?yàn)楦鱾€(gè)手指可以通過(guò)多種方式與虛擬內(nèi)容交互,如移動(dòng)對(duì)象,縮放對(duì)象,按壓虛擬按鈕等等。
3. 對(duì)象追蹤
對(duì)象追蹤涉及兩個(gè)通常與之關(guān)聯(lián)的獨(dú)立功能:對(duì)象檢測(cè)和分類;追蹤對(duì)象移動(dòng)的目標(biāo)位置。利用機(jī)器學(xué)習(xí)或深度學(xué)習(xí),我們可以使用多種方法來(lái)檢測(cè)對(duì)象。機(jī)器學(xué)習(xí)涉及利用已分類和標(biāo)記的數(shù)千幅圖像來(lái)訓(xùn)練系統(tǒng),并通過(guò)所述數(shù)據(jù)識(shí)別新圖像中的未知對(duì)象。你可以訪問(wèn)這個(gè)頁(yè)面進(jìn)行嘗試,系統(tǒng)可識(shí)別你上傳或鏈接的任何圖像。
對(duì)于視頻或?qū)崟r(shí)攝像頭饋送,一旦檢測(cè)到對(duì)象,你就可以以類似的方式逐幀操作,從而追蹤圍繞所述對(duì)象的邊界框。例如,在視頻中逐幀追蹤車輛。
4. 人像追蹤
取決于追蹤系統(tǒng)的最終目標(biāo),人像追蹤可以看作是對(duì)象追蹤(如確定商店中購(gòu)物者的數(shù)量)或骨骼追蹤(支持人們與數(shù)字標(biāo)牌交互)的子集。根據(jù)用例的不同,你可以采用手勢(shì)追蹤方法或骨骼追蹤方法,或通過(guò)對(duì)象追蹤方法來(lái)識(shí)別一幀中的人像。
5. 眼動(dòng)追蹤/注視點(diǎn)追蹤
眼動(dòng)追蹤/注視點(diǎn)追蹤允許你僅使用眼睛來(lái)與數(shù)字系統(tǒng)進(jìn)行交互。眼動(dòng)追蹤系統(tǒng)涉及指向某人面部或靠近其眼睛的攝像頭(深度攝像頭或其他)。通過(guò)追蹤眼睛的運(yùn)動(dòng)(特別是瞳孔),系統(tǒng)可以測(cè)量用戶的視線方向。這在常規(guī)分析中非常有用:能夠確定用戶關(guān)注的內(nèi)容元素可以提供有價(jià)值的用戶體驗(yàn)見(jiàn)解。它在輔助功能解決方案中同樣非常有用,因?yàn)檠蹌?dòng)追蹤可以減少或消除通過(guò)鼠標(biāo)鍵盤來(lái)與屏幕進(jìn)行交互的需求。例如,對(duì)于腕道癥候群患者而言,基于眼動(dòng)追蹤的交互可能會(huì)感覺(jué)更舒適。Eyeware是支持英特爾實(shí)感D400系列深度攝像頭進(jìn)行眼動(dòng)追蹤/注視點(diǎn)追蹤的軟件。
6. SLAM追蹤
即時(shí)定位于地圖構(gòu)建(SLAM)是一個(gè)不同于上面所述追蹤方案的概念。主要區(qū)別在于,SLAM設(shè)備能夠追蹤自身相對(duì)于世界的運(yùn)動(dòng),它不是追蹤攝像頭視場(chǎng)內(nèi)的對(duì)象的運(yùn)動(dòng)。諸如英特爾實(shí)感追蹤攝像頭T265這樣的SLAM設(shè)備結(jié)合了慣性傳感器和來(lái)自兩個(gè)攝像頭的視覺(jué)輸入,從而能夠精確追蹤自身在空間中的運(yùn)動(dòng)。這種技術(shù)在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)頭顯中非常有用。微軟Hololens,以及Rift S和Oculus Quest都采用了自家的SLAM追蹤方法(有時(shí)稱為內(nèi)向外追蹤)。SLAM追蹤對(duì)于機(jī)器人技術(shù)和無(wú)人機(jī)同樣十分有用,因?yàn)榇_定某物在的位置,以及它在空間中的移動(dòng)方式可允許其精確地導(dǎo)航世界。