圖像內(nèi)容分析、主要是利用圖像信息的時間分辨能力,理解圖像,進行目標行為的分析。
圖像內(nèi)容分析是智能監(jiān)控的切入點。
圖像內(nèi)容分析,自主的定義(簡單)特征、不與原始輸入相對比;通過目標狀態(tài)和行為的分析,理解圖像內(nèi)容(判斷正常/不正常、預測趨勢);通過圖像關聯(lián),實現(xiàn)目標的識別。
圖像內(nèi)容分析分為兩個層次:
視頻探測,模擬電視技術中就已得到了應用。在一幅圖像上開一個窗口,檢測其亮度電平的變化,就可以實現(xiàn)探測。
通過一系列窗口的監(jiān)測,就可以實現(xiàn)運動探測。
但它不是真正的視頻探測,因為不能確定目標。
在數(shù)字視頻基礎上,首先確認圖像中的探測目標,然后再進行其行為的分析,判斷圖像中是否出現(xiàn)“不正常”情況,及時提示、警告,記錄、傳送警情(圖像),提高實時監(jiān)控的效率,避免重要信息的遺漏。
真正的視頻探測,準確地判斷事件,是真實探測。
視頻探測還非常適于空間多維探測和多參數(shù)探測,同時處理來自不同方位攝像設備的圖像信號,可以作到對目標多方位的監(jiān)控;
實現(xiàn)對特定空間和目標的完全封閉。
視頻語義解釋,閱讀一段圖像,理解圖像的內(nèi)容,并表述出來,它描述的不是圖像本身,而是圖像的結構及表現(xiàn)的內(nèi)容、情節(jié),既視頻語義。
根據(jù)語義可以對圖像信息進行標引,在記錄圖像的同時,生成鏡像的標引文件,然后通過標引文件對存貯信息進行快速和準確的檢索;或實現(xiàn)按事件記錄圖像信息和以事件為特征檢索。進而實現(xiàn)圖像信息間的關聯(lián),圖像與聲音、圖形、文本之間的關聯(lián)。
是圖像信息深化應用、多媒體關聯(lián)的前提。
圖像內(nèi)容分析研究的過程分四個階段,產(chǎn)品和應用也分四個層面;
一、將(運動)目標從視頻圖像中分離出這來。并能在簡單環(huán)境下(單目標、背景單純)對目標分類;
二、在簡單環(huán)境下對目標進行行為分析,判定其運動的方向、方式、目標的復合或離散,發(fā)現(xiàn)和告警異常的行為;產(chǎn)生目標的運動軌跡,并能進行目標的自動跟蹤;目標的統(tǒng)計、關聯(lián)、過濾、趨勢預測等。
三、在復雜環(huán)境(既通常的視頻監(jiān)控環(huán)境)下實現(xiàn)上述功能,并實現(xiàn)(單源、多源)圖像的關聯(lián)。
四、實現(xiàn)視頻語義的解析,通過對一個圖像序列的理解,做出視頻語義解釋。目前已有了一些成果,但尚不具實用性。
第三個階段是技術實用性的關鍵,這樣系統(tǒng)才具有應用價值,目前大多數(shù)產(chǎn)品還達不到這一階段。
視頻語義解釋是內(nèi)容分析的最高境界,它表明機器具有了與人一樣理解圖像的能力,但具有人所不能達到的效率,目前還達不到這個程度。
圖像結構和內(nèi)容的描述還需要目視解釋的幫助。
前三階段可稱為視頻的半語義解釋。主要是判斷圖像中是否出現(xiàn)了不正常的情況,還不能準確、充分地理解圖像內(nèi)容。
綜上所述,智能監(jiān)控的主要課題有視頻探測、圖像識別和視頻語義解釋,也是物聯(lián)網(wǎng)亟待突破的技術。