近年來,隨著信號處理技術(shù)的進(jìn)步,視頻和圖像處理技術(shù)得到迅速發(fā)展,并逐步滲透到我們的社會生活中。大量的視頻監(jiān)控應(yīng)用已經(jīng)出現(xiàn),我們可能都已經(jīng)看到,視頻監(jiān)控幾乎無所不在:銀行柜臺和ATM機(jī),小區(qū)、酒店、寫字樓、機(jī)場等公共場所的安全管理,高速公路和停車場的車輛收費(fèi)管理,以及道路交通的流量管理等等。
與此同時(shí),大規(guī)模視頻監(jiān)控帶來的海量視頻信息成為了系統(tǒng)安裝后的處理難題。系統(tǒng)利用率低、有效信息提取困難,而視頻圖像識別分析技術(shù)則可以解決這個(gè)問題,智能視頻分析軟件就是基于此點(diǎn)迅速發(fā)展起來。
技術(shù)發(fā)展?fàn)顩r
視頻圖像識別分析技術(shù)源自計(jì)算機(jī)視覺(CV,Computer Vision)技術(shù)。計(jì)算機(jī)視覺技術(shù)是人工智能(AI,Artificial Intelligent)研究的分支之一,它能夠在圖像及圖像描述之間建立映射關(guān)系,從而使計(jì)算機(jī)能夠通過數(shù)字圖像處理和分析來理解視頻畫面中的內(nèi)容。而視頻監(jiān)控中所提到的智能視頻技術(shù)主要指的是:“自動(dòng)分析和抽取視頻源中的關(guān)鍵信息?!比绻褦z像機(jī)看作人的眼睛,而智能視頻系統(tǒng)或設(shè)備則可以看作人的大腦。人臉辨識、車牌識別以及行為分析三項(xiàng)技術(shù)則是智能視頻軟件的核心技術(shù)。
人臉辨識技術(shù)
人臉辨識是一個(gè)相當(dāng)古老的題目,早在1981年便有人發(fā)明模擬人臉,做人臉辨識的計(jì)算機(jī)視覺系統(tǒng),在1991年以及1997年分別有兩個(gè)重要的人臉辨識方法發(fā)表,其分別是Eigenface以及Fisherface。
Eigenface法是假設(shè)所有人臉可以用一組基底人臉的線性組合所表示,作者以PCA組成分析原理(Principle Components Analysis)找出這組基底。
Fisherface法則是進(jìn)一步利用LDA線性判別式分析法(Linear Discriminant Analysis ),強(qiáng)制將不同的人臉在投射空間中盡量分開,因而提高了辨識率。
基本上人臉辨識可以分為兩種主要方法,一是整體特征方法,一是局部特征方法。
整體特征方法:直接將整張人臉當(dāng)作單一特征來做辨識;局部特征方法:先找出臉上的局部特征,通常是眼睛、鼻子和嘴巴,然后分別根據(jù)這些局部特征做辨識,最后將個(gè)別局部特征的結(jié)果統(tǒng)合而得到最后結(jié)果。近來的研究發(fā)現(xiàn)局部特征方法要比整體特征方法有更高的準(zhǔn)確率,但局部特征方法存在局部特征的對位問題,在實(shí)際應(yīng)用上有較高的困難度。
大部分的人臉辨識方法會先將原始影像數(shù)據(jù)經(jīng)過降維的程序,在投射的子空間進(jìn)行辨識,如此一來降低了運(yùn)算量,例如前述的利用PCA或LDA方法。
近來也有方法是利用不連續(xù)余弦轉(zhuǎn)換法DCT(Discrete Cosine Transform)來做降維,其與PCA 和LDA不同處在于DCT法抽取的是影像的低頻部分作為特征,并且不用象PCA或LDA需要很多樣本(sample)來計(jì)算轉(zhuǎn)置矩陣,而是利用單一公式直接對每個(gè)樣本降維。
在抽取出特征后(不管是原始影像或是降維空間),做辨識通常是利用最近鄰居法( Nearest-Neighbor),Eigenface以及Fisherface皆屬于這種方式。比較快速的方式是利用中樞網(wǎng)絡(luò)法(Neural Network),再配合DCT的處理結(jié)果作為特征后,在Yale以及ORL人臉數(shù)據(jù)庫有不錯(cuò)的辨識率。[nextpage]
近來非常熱門的Support Vector Machine(SVM)方法也被應(yīng)用到人臉辨識的題目上,其直接取原始影像作為特征,或是經(jīng)過PCA降維后當(dāng)作特征,再訓(xùn)練出SVM來做辨識。
一個(gè)很有創(chuàng)意的人臉辨識方法是利用DCT加上Hidden Markov Model(HMM)來做人臉辨識,其是利用了人臉由上而下,眼睛、鼻子和嘴巴這些特征是有一定順序的性質(zhì)。
人臉辨識目前公認(rèn)存在的難題有兩個(gè),一是不同光源的問題,一是不同角度的問題。由于同一張人臉在不同光線以及角度下常常會有很大的差別,所以傳統(tǒng)的方法通常會失敗。
近來有不少方法致力于處理上述兩問題,在處理光線問題方面有Illumination Cone、 Quotient Image以及Self Quotient Image和Intrinsic Illumination Subspace四種方法。
Illumination Cone提出建立3D臉部模型,理論上可以重建固定視角下所有光源的臉2D樣貌,因而處理了光線變化的問題。
Quotient Image、Self Quotient Image和Intrinsic Illumination Subspace概念上都是一種前處理的手段,三者皆先將欲辨識的人臉轉(zhuǎn)成刪除光源信息的格式,再做人臉辨識。
在處理不同角度方面有Morphable model、View-Base Eigenspaces、Elastic Bunch Graph Matching和Active appearance model四種方法。
Morphable model 與Active appearance model提供將視角為非正面輸入影像轉(zhuǎn)換成正面影像,因而去除了不同視角的因素,在此條件下做人臉辨識自然有較高的精確度。
View-Base Eigenspaces是基于Eigenface的方法,但根據(jù)不同的視角都個(gè)別去做,因而數(shù)據(jù)庫中儲存了同一人在不同視角下的數(shù)據(jù)。
Elastic Bunch Graph Matching方法則是根據(jù)人臉上的特征點(diǎn)建立一個(gè)圖(graph),藉由允許此圖變形而使得不同視角下臉部的特征點(diǎn)仍位于臉上相同位置,因此藉由這些特征點(diǎn)來做人臉辨識便排除了不同視角的因素。
上述的這些方法皆是利用2D的模型來進(jìn)行人臉辨識。另外一類的方法使用3D模型來進(jìn)行人臉辨識,如在FRVT 2002中三維Morphable模型的測試被證明可以有效地改善不同視角的辨識率。
傳統(tǒng)的人臉辨識使用單張影像,相對于此種靜態(tài)影像辨識方法外,利用影片中連續(xù)的多張影像來做辨識的方法則稱為動(dòng)態(tài)影像辨識。動(dòng)態(tài)影像相對于靜態(tài)影像有許多優(yōu)勢,一是多張影像提供的信息比單張影像豐富,其中包括了不同的視角,相鄰影像的信息等,這些信息都能夠增加人臉辨識的準(zhǔn)確度。
總結(jié)來說,光線和視角仍是目前人臉辨識的難題,雖然有相當(dāng)多的研究是針對這兩點(diǎn)的,但并沒有完全解決。近來的研究趨向利用動(dòng)態(tài)影像來得到更高的精確度,而利用3D的人臉模型來進(jìn)行辨識也因?yàn)樵谝暯歉淖兊臓顩r下有不錯(cuò)的表現(xiàn),在近幾年也受到重視。[nextpage]
車牌識別技術(shù)
車牌識別是基于光學(xué)字符識別(簡稱OCR,即Optical Character Recognition)技術(shù)對車輛牌照進(jìn)行識別,從而辨識車輛身份的一種技術(shù)。近幾年該技術(shù)發(fā)展迅速,國內(nèi)有許多研究機(jī)構(gòu)和廠家掌握了漢字和基本字符的關(guān)鍵識別技術(shù),并已廣泛應(yīng)用于智能交通領(lǐng)域。
車輛圖像采集是從實(shí)際環(huán)境中或者交通視頻中獲取,即可通過照相設(shè)備直接獲取,也可以使用圖像采集卡采集。車牌識別技術(shù)均基于對圖像進(jìn)行分析識別,這一步驟提供了識別對象的原始信息。
車牌定位是在車輛的整幅圖像中,正確找到車牌所在的位置,提取車牌部分的圖像,并判別出車牌的顏色。
字符分割是按規(guī)定的車牌格式,正確分割車牌的每一個(gè)字符,為字符的識別做準(zhǔn)備。
字符識別是OCR的核心技術(shù),經(jīng)過字符識別最終獲得車牌號碼(有時(shí)還包括如車牌顏色,牌照位置等其他重要信息)。
經(jīng)過多年的發(fā)展,車牌識別技術(shù)已經(jīng)相對成熟,已有較多的廠商的整牌識別率都可以達(dá)到95%以上,基本滿足了實(shí)際應(yīng)用需要。在最新的車牌識別系統(tǒng)中,已有廠家推出了車型識別功能,可以定位到是何種品牌的汽車,如奔馳、寶馬、本田、豐田、夏利等。
困擾車牌識別技術(shù)多年的光線問題,也隨著光源補(bǔ)償技術(shù)的發(fā)展得到了極大改善??梢灶A(yù)計(jì)車牌識別技術(shù)已經(jīng)具備廣泛推廣的基礎(chǔ)。
行為識別分析技術(shù)
行為識別分析技術(shù)是近幾年發(fā)展比較迅速的智能識別技術(shù),并迅速進(jìn)入產(chǎn)品化,其中以美國Object Video公司為代表。
目前,針對生活中的各類安全預(yù)警事件的最新行為檢測功能紛紛推出,如煙火探測、異常行為探測、動(dòng)物探測等等。這些功能的實(shí)現(xiàn),加速了圖像識別分析軟件的大規(guī)模使用。
困擾行為識別分析技術(shù)的環(huán)境變化因素由于“自學(xué)習(xí)”技術(shù)的發(fā)展,也得到了很大改善。
應(yīng)用類型
在應(yīng)用方面,主要分為與安全相關(guān)類應(yīng)用與非安全相關(guān)類應(yīng)用兩類。
與安全相關(guān)類應(yīng)用
安全相關(guān)類的應(yīng)用是目前市場上存在的主要智能視頻應(yīng)用,特別是在“911”恐怖襲擊、馬德里爆炸案以及倫敦爆炸案發(fā)生之后,市場上對于此類應(yīng)用的需求不斷增長。這些應(yīng)用主要作用是協(xié)助政府或其他機(jī)構(gòu)的安全部門提高室外大地域公共環(huán)境的安全防護(hù)。此類應(yīng)用主要包括:
1、高級視頻移動(dòng)偵測(Advanced VMD):在復(fù)雜的天氣環(huán)境中(例如雨雪、大霧、大風(fēng)等)精確地偵測和識別單個(gè)物體或多個(gè)物體的運(yùn)動(dòng)情況,包括運(yùn)動(dòng)方向、運(yùn)動(dòng)特征等。[nextpage]
2、物體追蹤(Motion Tracking):偵測到移動(dòng)物體之后,根據(jù)物體的運(yùn)動(dòng)情況,自動(dòng)發(fā)送PTZ控制指令,使攝像機(jī)能夠自動(dòng)跟蹤物體,在物體超出該攝像機(jī)監(jiān)控范圍之后,自動(dòng)通知物體所在區(qū)域的攝像機(jī)繼續(xù)進(jìn)行追蹤。
3、人面部識別(Facial Detection):自動(dòng)識別人的臉部特征,并通過與數(shù)據(jù)庫檔案進(jìn)行比較來識別或驗(yàn)證人物的身份。此類應(yīng)用又可以細(xì)分為“合作型”和“非合作型”兩大類。
4、車輛識別(Vehicle Identification):識別車輛的形狀、顏色、車牌號碼等特征,并反饋給監(jiān)控者。此類應(yīng)用可以用在被盜車輛追蹤等場景中。
5、非法滯留(Object Persistence):當(dāng)一個(gè)物體(如箱子、包裹、車輛、人物等)在敏感區(qū)域停留的時(shí)間過長,或超過了預(yù)定義的時(shí)間長度就產(chǎn)生報(bào)警。典型應(yīng)用場景包括機(jī)場、火車站、地鐵站等。
與安全非相關(guān)類應(yīng)用
除了安全相關(guān)類應(yīng)用之外,智能視頻還可以應(yīng)用到一些非安全相關(guān)類的應(yīng)用當(dāng)中。這些應(yīng)用主要面向零售、服務(wù)等行業(yè),可以被看作管理和服務(wù)的輔助工具,用以提高服務(wù)水平和營業(yè)額。此類應(yīng)用主要包括:
1、人數(shù)統(tǒng)計(jì)(People Counting):統(tǒng)計(jì)穿越入口或指定區(qū)域的人或物體的數(shù)量。例如為業(yè)主計(jì)算某天光顧其店鋪的顧客數(shù)量。
2、人群控制(Flow Control):識別人群的整體運(yùn)動(dòng)特征,包括速度、方向等等,用以避免形成擁塞,或者及時(shí)發(fā)現(xiàn)異常情況。典型的應(yīng)用場景包括超級市場、火車站等人員聚集的地方。
3、注意力控制(Attention Control):統(tǒng)計(jì)人們在某物體前面停留的時(shí)間??梢杂脕碓u估新產(chǎn)品或新促銷策略的吸引力,也可以用來計(jì)算為顧客提供服務(wù)所用的時(shí)間。
4、交通流量控制(Traffic Flow):用于在高速公路或環(huán)線公路上監(jiān)視交通情況,例如統(tǒng)計(jì)通過的車輛數(shù)、平均車速、是否有非法???、是否有故障車輛等等。
結(jié)語
目前,視頻監(jiān)控技術(shù)正在向著數(shù)字化、網(wǎng)絡(luò)化、智能化的方向發(fā)展。網(wǎng)絡(luò)化、智能化的基礎(chǔ)是數(shù)字化,而智能化則是“三化”的最高境界。系統(tǒng)由目視解釋轉(zhuǎn)變?yōu)樽詣?dòng)解釋是視頻監(jiān)控技術(shù)的飛躍,是安防技術(shù)發(fā)展的必然。