2004年筆者提出了“圖像內(nèi)容分析”的概念,當(dāng)時(shí)許多人并不接受、不認(rèn)可,但是后來(lái)都這樣講了。2009年又提出了“視頻語(yǔ)義解釋”的概念,開始也不被人認(rèn)可,現(xiàn)在大家也都這么說(shuō)了。提出一些新名詞,不是搞文字游戲,而是希望通過(guò)對(duì)其技術(shù)內(nèi)涵的理解,探索智能監(jiān)控技術(shù)的發(fā)展之路。把“智能化”從抽象的概念轉(zhuǎn)化為具體的課題和產(chǎn)品,從美好的愿景變成真實(shí)的體驗(yàn)。
視頻監(jiān)控技術(shù)正在從經(jīng)典向現(xiàn)代轉(zhuǎn)變,集中體現(xiàn)在監(jiān)控系統(tǒng)的數(shù)字化、網(wǎng)絡(luò)化和智能化的過(guò)程中。筆者認(rèn)為實(shí)現(xiàn)這個(gè)轉(zhuǎn)變的標(biāo)志是:系統(tǒng)中信息流的形態(tài)由模擬的視頻信號(hào)轉(zhuǎn)變?yōu)閿?shù)字流,攝像機(jī)不再是唯一的采集圖像信息(生成圖像)的設(shè)備(信源);系統(tǒng)由單功能、單向、集總式的信息采集網(wǎng)絡(luò)轉(zhuǎn)變?yōu)榫C合、交互、公布式的架構(gòu);系統(tǒng)實(shí)現(xiàn)圖像信息的機(jī)器(自動(dòng))解釋,改變主要以人的直接觀察為提取圖像有用信息(目視解釋)的工作方式。系統(tǒng)中心設(shè)備將從以前端設(shè)備管理(控制與遙控、視頻信號(hào)的分配與切換)為主轉(zhuǎn)變?yōu)橐詧D像處理(分析、識(shí)別、關(guān)聯(lián))為核心。
可以說(shuō),經(jīng)典視頻監(jiān)控系統(tǒng)是以攝像機(jī)為核心的,在整個(gè)過(guò)程中、對(duì)攝像機(jī)產(chǎn)生的視頻信號(hào)基本上不作任何處理,最后通過(guò)人的觀察(目視解釋)來(lái)獲取圖像的有用信息?,F(xiàn)代視頻監(jiān)控系統(tǒng)則是以圖像探測(cè)和圖像處理為核心,通過(guò)圖像信息的自動(dòng)解釋,極大地提高系統(tǒng)對(duì)圖像信息的利用水平。如果說(shuō)經(jīng)典視頻監(jiān)控是人視覺(jué)的延伸,現(xiàn)代視頻監(jiān)控就是人的思維(大腦)的擴(kuò)展。
智能監(jiān)控
智能化是自動(dòng)化的最高境界。表現(xiàn)為系統(tǒng)自主、優(yōu)化地調(diào)節(jié)和準(zhǔn)確、協(xié)調(diào)地互動(dòng)。自動(dòng)化系統(tǒng)分為三個(gè)層次:系統(tǒng)遙控、編程控制和自主動(dòng)作。在視頻監(jiān)控領(lǐng)域主要表現(xiàn)在以下三個(gè)方面:
系統(tǒng)功能控制與聯(lián)動(dòng)
視頻監(jiān)控系統(tǒng)中的大多功能可以通過(guò)遙控來(lái)進(jìn)行調(diào)節(jié),如攝像機(jī)的方位、鏡頭的焦距和光圈等;也有一些功能可以通過(guò)編程控制來(lái)完成,如云臺(tái)的轉(zhuǎn)動(dòng)(自動(dòng)轉(zhuǎn)、自動(dòng)掃描、預(yù)置位)等;還有一些功能已可根據(jù)對(duì)圖像的檢測(cè)或分析實(shí)現(xiàn)自主、優(yōu)化的調(diào)節(jié)。如自動(dòng)光圈、目標(biāo)的自動(dòng)跟蹤等。
圖像信息的自動(dòng)解釋
圖像系統(tǒng)最主要的特點(diǎn)是信息量大,因此,如何充分發(fā)揮這個(gè)特點(diǎn),提高系統(tǒng)信息利用水平是視頻監(jiān)控系統(tǒng)始終追求的目標(biāo),圖像信息的自動(dòng)解釋是必由之路。
目前,已有許多技術(shù)和產(chǎn)品應(yīng)用,如通過(guò)指紋、人臉識(shí)別來(lái)進(jìn)行個(gè)體身份識(shí)別,通過(guò)對(duì)圖像的分析,發(fā)現(xiàn)異常狀態(tài)來(lái)產(chǎn)生報(bào)警等,但這些技術(shù)和產(chǎn)品受環(huán)境因素的限制較大,在通常的視頻監(jiān)控環(huán)境中,成熟性和實(shí)用還較低,特別是對(duì)于多目標(biāo)和復(fù)雜背景時(shí)。在監(jiān)控環(huán)境下實(shí)現(xiàn)圖像信息的自動(dòng)解釋是視頻監(jiān)控系統(tǒng)智能化的關(guān)鍵技術(shù),是科研的重點(diǎn)和熱點(diǎn),也是拉動(dòng)視頻監(jiān)控技術(shù)、安防技術(shù)科技進(jìn)步的箭頭。
系統(tǒng)自適應(yīng)、自診斷、友好的界面
系統(tǒng)對(duì)環(huán)境的適應(yīng)、對(duì)故障的自論斷,以及友好的人機(jī)交互界面也是系統(tǒng)智能化的內(nèi)容。它涉及系統(tǒng)控制、故障檢測(cè)等多個(gè)方面,主要是對(duì)圖像質(zhì)量的監(jiān)測(cè)、系統(tǒng)及設(shè)備工作狀的監(jiān)測(cè)。
以上幾個(gè)方面以圖像信息的自動(dòng)解釋最為重要和最為引入關(guān)注,它關(guān)系圖像系統(tǒng)最核心的問(wèn)題——圖像信息的利用水平??梢哉f(shuō):圖像信息的自動(dòng)解釋是監(jiān)控系統(tǒng)智能化標(biāo)志,是現(xiàn)代視頻監(jiān)控的基本特征。
視頻監(jiān)控智能化的途徑
圖像信息的自動(dòng)解釋有兩個(gè)基本途徑:一是圖像識(shí)別,主要利用圖像信息的空間分辨能力,實(shí)現(xiàn)個(gè)體的身份認(rèn)證;二是圖像內(nèi)容分析、主要是利用圖像信息的時(shí)間分辨能力,理解圖像,進(jìn)行目標(biāo)行為的分析。
圖像識(shí)別
主要是指通過(guò)對(duì)一幀圖像中指定目標(biāo)的特征識(shí)別,實(shí)現(xiàn)個(gè)體身份認(rèn)證,典型的實(shí)例是人臉識(shí)別。研究證明,人的行為也是一種生物特征,如步態(tài),眼部動(dòng)作等。對(duì)人步態(tài)的分析可以用于個(gè)體的識(shí)別,但它是通過(guò)對(duì)一段圖像序列的識(shí)別來(lái)進(jìn)行個(gè)體身份的認(rèn)證。無(wú)論什么方式,圖像識(shí)別都有要求兩個(gè)基本條件:一是定義特征;二是建立一定數(shù)量的樣本數(shù)據(jù)庫(kù)。定義特征,選擇具有唯一性和相對(duì)穩(wěn)定的特征來(lái)表示個(gè)體,如用人臉上的標(biāo)志點(diǎn)來(lái)形成特征矢量。樣本數(shù)據(jù)庫(kù),按特征的定義采集一定數(shù)量(根據(jù)應(yīng)用)的樣本特征,建立樣本庫(kù)。
圖像識(shí)別的基本工作方法是:將現(xiàn)場(chǎng)采集的目標(biāo)特征數(shù)據(jù)與樣本庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì)。這就這要求現(xiàn)場(chǎng)采集的特征數(shù)據(jù)和樣本庫(kù)數(shù)據(jù)具有相關(guān)(可比)性,因此必須建立一個(gè)適當(dāng)限制的應(yīng)用環(huán)境,才能保證系統(tǒng)正常的工作。
個(gè)體身份認(rèn)證是安全系統(tǒng)最迫切的要求,近年來(lái)有了大量的成果,也有了初步的應(yīng)用,主要有兩種方式:第一是驗(yàn)證,識(shí)別監(jiān)控目標(biāo),確認(rèn)目標(biāo)的身份及正在發(fā)生行為的合法性,是安防系統(tǒng)的功能和典型應(yīng)用;第二則是識(shí)別,將現(xiàn)場(chǎng)采集的特征與樣本庫(kù)進(jìn)行比對(duì),確定目標(biāo)的身份,以發(fā)現(xiàn)事件的相關(guān)線索,是偵察工作的典型應(yīng)用。系統(tǒng)要建立海量的樣本數(shù)據(jù)庫(kù)。通常的視頻監(jiān)控系統(tǒng)達(dá)不到上述應(yīng)用的環(huán)境條件。
圖像識(shí)別系統(tǒng)包括圖像輸入、圖像的預(yù)處理、特征的提取和圖像的解釋(識(shí)別)等技術(shù)環(huán)節(jié)和設(shè)備。其關(guān)鍵技術(shù)或難點(diǎn)在于實(shí)現(xiàn)系統(tǒng)能在一種適當(dāng)控制的環(huán)境下,針對(duì)移動(dòng)目標(biāo)實(shí)時(shí)地運(yùn)行,這些目標(biāo)通過(guò)靜止攝像機(jī)可能會(huì)產(chǎn)生大小不同、角度不同及光照效果不同的圖像。并在各種可能的非最佳條件下進(jìn)行識(shí)別,如由于年齡、面部表情、配飾(眼鏡、帽子)及可能的偽裝(化妝)造成圖像的差異。就要求系統(tǒng)采用適當(dāng)?shù)膱D像輸入方法和預(yù)處理技術(shù),以保證圖像特征有效地提取,樣本的生成和數(shù)據(jù)庫(kù)的建立。
圖像識(shí)別的方法基本上分為統(tǒng)計(jì)方法和結(jié)構(gòu)分析兩類,前者是以數(shù)學(xué)決策理論為基礎(chǔ),建立統(tǒng)計(jì)學(xué)的識(shí)別模型,指紋、掌形的識(shí)別多采用這種方法,其特點(diǎn)是穩(wěn)定,但很少利用圖像本身的結(jié)構(gòu)關(guān)系。后者則主要是分析圖像的結(jié)構(gòu),它充分地發(fā)揮了圖像的特點(diǎn),但容易受圖像生成過(guò)程中噪聲干擾的影響。[nextpage]
圖像內(nèi)容分析
由于通常的監(jiān)控系統(tǒng)不適合于進(jìn)行圖像識(shí)別,監(jiān)控系統(tǒng)的智能化就必須尋找新的途徑。圖像內(nèi)容分析就成了智能監(jiān)控的切入點(diǎn)。圖像內(nèi)容分析,自主的定義(簡(jiǎn)單)特征,不與原始輸入相對(duì)比;通過(guò)目標(biāo)狀態(tài)和行為的分析,理解圖像內(nèi)容(判斷正常/不正常、預(yù)測(cè)趨勢(shì));通過(guò)圖像關(guān)聯(lián),實(shí)現(xiàn)目標(biāo)的識(shí)別。
圖像內(nèi)容分析分為兩個(gè)層次:首先是視頻探測(cè),視頻探測(cè)在模擬電視技術(shù)中就已得到了應(yīng)用。在一幅上開圖像一個(gè)窗口,檢測(cè)其亮度電平的變化,就可以實(shí)現(xiàn)探測(cè)。通過(guò)一系列窗口的監(jiān)測(cè)其亮度電平的變化,就可以實(shí)現(xiàn)運(yùn)動(dòng)探測(cè)。但它不是真正的視頻探測(cè),因?yàn)樗荒艽_定目標(biāo)。在數(shù)字視頻基礎(chǔ)上,首先確認(rèn)圖像中的探測(cè)目標(biāo),然后再進(jìn)行其行為的分析,判斷出圖像中是否出現(xiàn)了“不正?!鼻闆r,及時(shí)發(fā)出報(bào)警。真正的視頻探測(cè),它可準(zhǔn)確地判斷事件,實(shí)現(xiàn)真實(shí)探測(cè)。視頻探測(cè)還非常適于空間的多維探測(cè)和多參數(shù)探測(cè),同時(shí)處理來(lái)自不同方位攝像設(shè)備的圖像信號(hào),可以做到對(duì)目標(biāo)多方位的監(jiān)控,實(shí)現(xiàn)對(duì)特定空間和目標(biāo)的完全封閉;其次是視頻語(yǔ)義解釋,通過(guò)閱讀一段圖像,理解圖像的內(nèi)容(視頻語(yǔ)義)并把它表達(dá)出來(lái),它描述的不是圖像本身,而是圖像的結(jié)構(gòu)及表現(xiàn)的內(nèi)容、情節(jié),既視頻語(yǔ)義。根據(jù)語(yǔ)義可以對(duì)圖像信息進(jìn)行標(biāo)引,在記錄圖像的同時(shí),生成鏡像的標(biāo)引文件,然后可以通過(guò)標(biāo)引文件對(duì)存貯信息進(jìn)行快速和準(zhǔn)確的檢索;進(jìn)而實(shí)現(xiàn)圖像信息間的關(guān)聯(lián),圖像信息與聲音、圖形、文本信息之間的關(guān)聯(lián),這是圖像信息深化應(yīng)用的前提。
圖像內(nèi)容分析研究的過(guò)程分四個(gè)階段,產(chǎn)品和應(yīng)用也分四個(gè)層面;第一是將(運(yùn)動(dòng))目標(biāo)從視頻圖像中分離出來(lái)。并能在簡(jiǎn)單環(huán)境下(單目標(biāo)、背景單純)對(duì)目標(biāo)分類;第二是在簡(jiǎn)單環(huán)境下對(duì)目標(biāo)進(jìn)行行為分析,判定其運(yùn)動(dòng)的方向、方式、目標(biāo)的復(fù)合或離散,發(fā)現(xiàn)和告警異常的行為;產(chǎn)生目標(biāo)的運(yùn)動(dòng)軌跡,并能進(jìn)行目標(biāo)的自動(dòng)跟蹤;進(jìn)行目標(biāo)的統(tǒng)計(jì)、關(guān)聯(lián)、過(guò)濾、趨勢(shì)預(yù)測(cè)等。第三是在復(fù)雜環(huán)境(既通常的視頻監(jiān)控環(huán)境)下實(shí)現(xiàn)上述功能,并實(shí)現(xiàn)(單源、多源)圖像的關(guān)聯(lián);第四是實(shí)現(xiàn)視頻語(yǔ)義的解析,通過(guò)對(duì)一個(gè)圖像序列的理解,做出視頻語(yǔ)義解釋。目前已有了一些成果,但尚不具實(shí)用性。其中第三個(gè)階段是技術(shù)實(shí)用性的關(guān)鍵,達(dá)到了這一點(diǎn),系統(tǒng)才具有應(yīng)用價(jià)值,目前大多數(shù)產(chǎn)品還達(dá)不到這一階段。
視頻的語(yǔ)義解釋是內(nèi)容分析的最高境界,它表明機(jī)器具有了與人一樣的理解圖像的能力,但具有人所不能達(dá)到的效率,目前還達(dá)不到這個(gè)程度。關(guān)于圖像結(jié)構(gòu)和內(nèi)容的描述還需要目視解釋的幫助。前三階段的工作可稱為視頻的半語(yǔ)義解釋。主要是判斷圖像中是否出現(xiàn)了不正常的情況,還不能準(zhǔn)確、充分地理解圖像內(nèi)容。
IPC給智能監(jiān)控的啟示
IPC(網(wǎng)絡(luò)攝像機(jī))是網(wǎng)絡(luò)監(jiān)控系統(tǒng)中的主要設(shè)備,有些知名廠家給它的新定義,為智能監(jiān)控帶來(lái)了有益的啟示。通常認(rèn)為攝像機(jī)是產(chǎn)生圖像信息的設(shè)備,IPC就是產(chǎn)生數(shù)字流圖像信息的設(shè)備。IPC的新定義則是:產(chǎn)生圖像信息和增值信息的設(shè)備。增值信息包括:圖像質(zhì)量的信息,圖像散焦、照度不足、圖像(鏡頭)被污等造成的圖像質(zhì)量劣化;圖像探測(cè)的信息,圖像內(nèi)容分析的功能,發(fā)現(xiàn)圖像的不正常情況,發(fā)出相關(guān)(報(bào)警)信息;設(shè)備狀態(tài)的信息,IPC狀態(tài)及網(wǎng)絡(luò)環(huán)境的監(jiān)測(cè),對(duì)故障進(jìn)行自診斷,對(duì)環(huán)境能自適應(yīng),并發(fā)出相關(guān)信息。具備了這些功能,IPC具有了智能,成為智能監(jiān)控系統(tǒng)的基本(最小)單元。
更有新意的是,IPC時(shí)的增值信息可以傳遞給相鄰的IPC(互聯(lián)、傳送探測(cè)信息、傳感網(wǎng)):實(shí)現(xiàn)IPC之間、IPC與監(jiān)控目標(biāo)之間的互聯(lián)和真實(shí)的感知與互動(dòng),這就是傳感網(wǎng)(物聯(lián)的基本單元)的概念。如實(shí)現(xiàn)多個(gè)IPC對(duì)監(jiān)控目標(biāo)的跟蹤;全方位IPC對(duì)固定IPC發(fā)現(xiàn)目標(biāo)的自動(dòng)跟蹤等。這樣的系統(tǒng)就是真正的物聯(lián)網(wǎng)。所以說(shuō):視頻監(jiān)控智能化是構(gòu)建物聯(lián)網(wǎng)的關(guān)鍵技術(shù);IPC是構(gòu)成物聯(lián)網(wǎng)的重要單元。
上述架構(gòu)對(duì)確定圖像智能化的系統(tǒng)架構(gòu)也有很好的啟示,表明圖像智能系統(tǒng)的最佳結(jié)構(gòu)是:分布增強(qiáng)處理架構(gòu)(DEPA)。視頻的探測(cè)功能由前端設(shè)備完成,而圖像信息綜合分析、信息關(guān)聯(lián)在系統(tǒng)后臺(tái)進(jìn)行。它符合圖像信號(hào)的特點(diǎn),在圖像壓縮前,圖像數(shù)據(jù)流保持與空間圖像在時(shí)間和空間上的一一對(duì)應(yīng)關(guān)系,是進(jìn)行個(gè)體識(shí)別、內(nèi)容分析的最佳形態(tài),壓縮后的數(shù)據(jù)流沒(méi)有了這種對(duì)應(yīng)性,且有了損傷,進(jìn)行上述處理的難度很大。所以IPC在生成圖像信號(hào)的同時(shí)產(chǎn)生增值信息是最合理的技術(shù)路線。再有前端IPC傳感網(wǎng)也是對(duì)監(jiān)控系統(tǒng)監(jiān)視區(qū)設(shè)計(jì)的最好說(shuō)明。監(jiān)控系統(tǒng)不能一個(gè)點(diǎn)、一個(gè)點(diǎn)孤立地去設(shè)計(jì)攝像機(jī),要建立監(jiān)控區(qū)的概念,對(duì)監(jiān)控區(qū)內(nèi)攝像機(jī)的配置(數(shù)量、選型、功能)、監(jiān)控效果和目標(biāo)進(jìn)行整體的規(guī)劃。
監(jiān)控區(qū)的設(shè)計(jì)將增強(qiáng)系統(tǒng)實(shí)時(shí)監(jiān)控的能力和效率;提高系統(tǒng)快速捕捉事件、獲得完整信息的能力。業(yè)務(wù)部門在實(shí)戰(zhàn)中總結(jié)了“八大戰(zhàn)法”,通常是用人工控制或編程設(shè)計(jì)實(shí)現(xiàn)的。前者效率低,后者缺少與監(jiān)控目標(biāo)的互動(dòng)。 IPC傳感網(wǎng)可構(gòu)成智能監(jiān)控區(qū),系統(tǒng)通過(guò)對(duì)監(jiān)控目標(biāo)圖像的分析,自主地實(shí)現(xiàn)上述各種戰(zhàn)法。
應(yīng)用、實(shí)事求是
視頻監(jiān)控的智能化是逐步發(fā)展的過(guò)程,不可能一蹴而就,也沒(méi)有終極的結(jié)果,要經(jīng)過(guò)不斷的技術(shù)積累,特別是核心關(guān)鍵技術(shù)的突破。當(dāng)前,重要的不是“智能化”概念的推廣,而是要具體明確:它可以做什么,做到什么程度,適應(yīng)什么應(yīng)用環(huán)境,以及科學(xué)的可操作的評(píng)出評(píng)價(jià)。本文之所以對(duì)基本概念進(jìn)行解釋,就是希望通過(guò)這樣的定義,理解它的內(nèi)涵,將智能技術(shù)從抽象的概念轉(zhuǎn)化為具體的產(chǎn)品和課題,讓人們真實(shí)地感受到實(shí)際的效果。