視頻分析與識(shí)別(video analyzing and recognition)技術(shù)指的是使用計(jì)算機(jī)從視頻中通過(guò)運(yùn)算和分析,提取視頻中的有用信息的一項(xiàng)技術(shù),也就是對(duì)視頻的“內(nèi)容”的提取和理解。就好像人看到某一段視頻中“有一輛車”、“有一輛白色的車”、“有一輛白色的捷達(dá)車”、“有一輛白色的捷達(dá)車正在打著右轉(zhuǎn)向燈準(zhǔn)備向右轉(zhuǎn)”。對(duì)于人來(lái)說(shuō),這段視頻是有意義的,是包含了一定信息量的,并且人可以智能化地提取這些信息,獲取“有一輛白色的捷達(dá)車正在打著右轉(zhuǎn)向燈準(zhǔn)備向右轉(zhuǎn)”這一信息,而且這一信息包含了“車、白色、捷達(dá)、轉(zhuǎn)向燈、開(kāi)燈、開(kāi)右轉(zhuǎn)向燈、準(zhǔn)備右轉(zhuǎn)”這一系列的子信息。而視頻分析與識(shí)別技術(shù)則是讓計(jì)算機(jī)來(lái)完成這一信息提取和理解的過(guò)程,通常也可以簡(jiǎn)稱為“視頻分析技術(shù)”。
這里要特別指出的是兩點(diǎn):一是有時(shí)候“視頻分析技術(shù)”也稱為“視頻圖像分析技術(shù)”,為什么呢?這是因?yàn)橐曨l本身是由一系列連續(xù)的圖像組成的(這里不討論視頻壓縮技術(shù),僅指視頻信號(hào)通過(guò)解壓縮還原后的幀圖像序列),對(duì)于視頻內(nèi)容的理解,則建立在對(duì)這個(gè)“圖像序列”的分析與識(shí)別上,因此,二者是等同的,是同樣的含義;二是很多時(shí)候視頻中的信息都是十分豐富的,就如上面提到的這段視頻,除了這輛白色捷達(dá)車之外,也許還有另外的信息,比如“路邊上站著的是一位穿著深藍(lán)色風(fēng)衣的中年男人戴著墨鏡抽著一根煙”,對(duì)于同樣一段視頻,我們關(guān)注的對(duì)象不同,需要提取的信息也就不同,人的大腦可以處理很復(fù)雜的工作,可以同時(shí)將視頻中的大部分信息量一次性提取出來(lái),而對(duì)于計(jì)算機(jī)來(lái)說(shuō),其智能化水平還比較低,也許只能有針對(duì)性地提取部分信息,比如只是提取車的信息或只提取人的信息。但無(wú)論是提取什么樣的信息,都屬于一種“視頻分析技術(shù)”。
視頻分析技術(shù)
視頻分析技術(shù)范圍很廣,前面說(shuō)了,只要是從視頻中通過(guò)運(yùn)算提取有用信息都可以稱為視頻分析技術(shù),因?yàn)槎际菍儆趯?duì)“視頻內(nèi)容”的“分析、識(shí)別和理解”,從這個(gè)角度來(lái)說(shuō),目前已經(jīng)比較成熟的并已經(jīng)形成產(chǎn)品在實(shí)際項(xiàng)目中得到應(yīng)用的技術(shù)都屬于“視頻分析技術(shù)”,例如車牌識(shí)別技術(shù)、視頻檢索技術(shù)、視頻人臉檢測(cè)等,因?yàn)檫@都屬于對(duì)視頻中的有用信息的提取,提取車牌號(hào)碼,提取視頻中的文字或特定圖形等。嚴(yán)格地說(shuō),這些技術(shù)都只是視頻分析技術(shù)中的比較簡(jiǎn)單的內(nèi)容,只不過(guò)由于這些技術(shù)已得到較好地研究和應(yīng)用,有了一些專門的稱謂,才單獨(dú)提了出來(lái),而似乎不再被歸納到“視頻分析技術(shù)”的范疇。
由于習(xí)慣上的原因,當(dāng)前的視頻分析技術(shù)一般特指從視頻中目標(biāo)運(yùn)動(dòng)行為的分析、提取和識(shí)別。其所指的含義比之字面意思的含義已大幅縮小。
技術(shù)研究方向
當(dāng)前對(duì)于視頻分析技術(shù)(特指縮小了定義之后的“目標(biāo)運(yùn)動(dòng)行為的分析、提取和識(shí)別”這一概念)的研究,一般來(lái)說(shuō)又分為兩個(gè)主要的研究方向:一個(gè)研究方向是以目標(biāo)整體的運(yùn)動(dòng)軌跡作為研究目標(biāo),提取運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)特征或其本身所具有的特性。這一研究目標(biāo)不一定是特指人,而是可以以任何運(yùn)動(dòng)物體作為研究對(duì)象,比如人、車輛、動(dòng)物、飛機(jī)坦克等軍事目標(biāo)等等。而其行為指的也是研究對(duì)象的運(yùn)動(dòng)特征,例如該目標(biāo)是否朝特定的方向運(yùn)動(dòng),是否以特定的軌跡運(yùn)動(dòng),是否越過(guò)某一警戒線或者進(jìn)入某一警戒區(qū)域、是否排隊(duì)、是否產(chǎn)生了聚集或擁堵、是否有尾隨現(xiàn)象、是否有徘徊行為等等。這是一個(gè)重要的研究方向,并在市場(chǎng)上有相應(yīng)的產(chǎn)品出現(xiàn)(盡管還不十分成熟)。其特點(diǎn)是將目標(biāo)物體作為一個(gè)整體來(lái)考察,提取其在大場(chǎng)景范圍內(nèi)的運(yùn)動(dòng)特征。[nextpage]
另一個(gè)研究方向則以目標(biāo)的局部部分的運(yùn)動(dòng)為研究目標(biāo),提取其局部“肢體語(yǔ)言”特征,如視頻的手語(yǔ)識(shí)別,步態(tài)識(shí)別,表情識(shí)別,或者判斷其是否在完成某種行為,如打電話,放下一個(gè)包,從某個(gè)地方取出或入下一件東西等等。此外,公共場(chǎng)所或文物古跡范圍是否有涂抹蹬踏行為,體育運(yùn)動(dòng)里的運(yùn)動(dòng)姿態(tài)或運(yùn)動(dòng)動(dòng)作是否最佳,甚至于艦載火炮炮管的旋轉(zhuǎn)運(yùn)動(dòng)曲線的研究,所有這些都是屬于這一方向。這一研究方向通常針對(duì)的是小視野場(chǎng)景的近景視頻進(jìn)行研究,而且其研究對(duì)象只是屬于目標(biāo)物的局部部分,如分析人的手、腳、頭的動(dòng)作,其最核心的實(shí)現(xiàn)步驟通常包括對(duì)研究對(duì)象的三維建模。這一研究方向由于要分析的動(dòng)作比較細(xì)致和具體,因此大多屬于那種針對(duì)某一具體需求的開(kāi)發(fā)和應(yīng)用,比較難以出現(xiàn)普適性略高一些的成形產(chǎn)品。
市場(chǎng)發(fā)展?fàn)顩r
不容否認(rèn),對(duì)于視頻分析技術(shù)的研究,但由于其算法的復(fù)雜度以及目標(biāo)行為的多樣性等原因,發(fā)展一直比較緩慢。而相對(duì)起來(lái),由于國(guó)際上反恐形勢(shì)的需要,而第一類研究方向可以用在監(jiān)控系統(tǒng)中實(shí)現(xiàn)異常狀態(tài)自動(dòng)報(bào)警的功能,具有實(shí)時(shí)報(bào)警、縮短異常事件反應(yīng)時(shí)間、減少損失、增強(qiáng)監(jiān)控系統(tǒng)威懾力等特點(diǎn)。國(guó)外在視頻分析技術(shù)這一領(lǐng)域的研究、發(fā)展和產(chǎn)品化比之國(guó)內(nèi)的研究單位來(lái)說(shuō),研究成果具有一定的領(lǐng)先性。
雖然針對(duì)不同的應(yīng)用需求,產(chǎn)品有著不同的目標(biāo)市場(chǎng)和目標(biāo)用戶,其功能也不盡相同,但其實(shí)現(xiàn)過(guò)程中很多的核心技術(shù)或?qū)崿F(xiàn)思路卻是一樣的,都需要解決一些共同的難題,然后再針對(duì)具體需求來(lái)增加一些特殊的處理和運(yùn)算,使之精度更高,速度更快,準(zhǔn)確率更高。
以第一類的研究方向,即以目標(biāo)整體的運(yùn)動(dòng)軌跡的提取和分析為例,雖然其處理的技巧或方法各有不同,各有特色,但從整體的解決方案框架設(shè)計(jì)來(lái)說(shuō),都是先獲取背景,然后提取前景目標(biāo),再分析前景目標(biāo)的運(yùn)動(dòng)軌跡曲線,最后由該軌跡曲線的特征來(lái)實(shí)現(xiàn)對(duì)于異常行為的分析。在這一過(guò)程中,必然要涉及到的是對(duì)于光照、陰影、抖動(dòng)、模糊等異常狀態(tài)的處理和適應(yīng),使之能適應(yīng)室外光照變化或室內(nèi)的燈泡強(qiáng)弱變化;適應(yīng)各種陰影,包括外界陰影和目標(biāo)物本身的陰影;適應(yīng)攝像頭的抖動(dòng)和樹(shù)葉、水波、光的折射等造成的抖動(dòng);適應(yīng)焦距不準(zhǔn)或是雨雪霧天造成的視頻的模糊等。在這些不利的外界環(huán)境條件下仍然能夠準(zhǔn)確地提取目標(biāo)軌跡,分析目標(biāo)行為,能準(zhǔn)確報(bào)警并盡可能減少虛警誤警,保證自動(dòng)監(jiān)測(cè)的有效性。在這一同時(shí),又須盡量考慮到運(yùn)算的速度,算法的復(fù)雜性,以保證報(bào)警的及時(shí)性。只有這樣,才可能將所開(kāi)發(fā)的視頻分析技術(shù)轉(zhuǎn)化為可以實(shí)際應(yīng)用的產(chǎn)品。
事實(shí)上,目前在市場(chǎng)上已出現(xiàn)的智能視頻分析技術(shù)產(chǎn)品仍處于一個(gè)很低級(jí)的階段,只能分析幾類較為簡(jiǎn)單的異常行為,其光照環(huán)境適應(yīng)性等指標(biāo)也處于較低的水平,可以說(shuō),其“智能化”程度仍然比較低,離用戶所期望的理想效果仍然差得比較遠(yuǎn),但并不是說(shuō)這些產(chǎn)品就不能用了,仍然是可以用的,問(wèn)題在于怎么用,如何用。
產(chǎn)品功效發(fā)揮
那么,在目前的仍處于比較“初級(jí)”智能化水平的視頻分析技術(shù)產(chǎn)品應(yīng)該如何使用才能發(fā)揮其功效呢?可以從三個(gè)方面來(lái)考慮:
其一:產(chǎn)品應(yīng)用定制化,這里的定制不一定是指針對(duì)每一個(gè)應(yīng)用專門開(kāi)發(fā)出一套算法(雖然這么做從理論上來(lái)說(shuō)應(yīng)該是效果最好的,但卻不切實(shí)際),而是說(shuō)針對(duì)某一具體的應(yīng)用場(chǎng)景和應(yīng)用目標(biāo),應(yīng)該盡可能多地設(shè)置一些參數(shù),包括規(guī)則參數(shù)甚至于算法的內(nèi)部參數(shù),使算法能在該環(huán)境中得到最佳的性能。能用性強(qiáng),到哪都能表現(xiàn)良好的產(chǎn)品不是沒(méi)有,只不過(guò)目前來(lái)說(shuō)暫時(shí)還未出現(xiàn),如果相對(duì)具體應(yīng)用有針對(duì)性地設(shè)置具體的參數(shù),性能就會(huì)大有提高。
其二:在比較特殊的場(chǎng)合應(yīng)用。如對(duì)于目標(biāo)運(yùn)動(dòng)軌跡的監(jiān)測(cè)與報(bào)警類的視頻分析技術(shù)產(chǎn)品,其中一個(gè)關(guān)鍵環(huán)節(jié)在于對(duì)于背景的提取。當(dāng)視野范圍內(nèi)活動(dòng)目標(biāo)(前景)較多時(shí),提取背景將存在較大的誤差,不利于最終的報(bào)警準(zhǔn)確率,那么可以選擇前景目標(biāo)較少的場(chǎng)合來(lái)應(yīng)用。如這種產(chǎn)品在天安門這種人潮涌動(dòng)的環(huán)境肯定是效果比較差的,但如果用在軍事禁區(qū)或是銀行金庫(kù)門口,正常情況下本來(lái)就是極少活動(dòng)目標(biāo)出現(xiàn),那么它的效果將會(huì)明顯好得很多,同理,用在城市道路監(jiān)控中的效果也必然不如用在高速公路上好。
其三:可以應(yīng)用在報(bào)警準(zhǔn)確率要求不高的場(chǎng)合。如果某些應(yīng)用場(chǎng)合要求報(bào)警準(zhǔn)確率很高,一旦出現(xiàn)誤警或漏警都會(huì)造成很嚴(yán)重的后果,那么對(duì)于產(chǎn)品的性能要求就會(huì)很嚴(yán)格,這是不太適合目前這類智能化水平還不太高的產(chǎn)品應(yīng)用的。只有當(dāng)使用時(shí)只是需要自動(dòng)監(jiān)測(cè)的輔助功能,允許一定的誤報(bào)或漏報(bào),才可以使用到目前已有的視頻分析技術(shù)產(chǎn)品。