眾所周知,在安防領(lǐng)域中,視頻監(jiān)控一直占據(jù)絕對主角地位,其所采集、傳輸、存儲的數(shù)據(jù)類型70%以上都是來自于視頻監(jiān)控的圖像數(shù)據(jù),但事實(shí)上對于城市公共安全、交通管理等絕大多數(shù)安防場景而言,聲音無疑是圖像信息最重要的補(bǔ)充,應(yīng)用價(jià)值巨大,從無聲到有聲,聲音讓單一畫面視頻變得更有價(jià)值與意義,從而直接影響到事件的準(zhǔn)確研判與綜合分析。
自中國安防產(chǎn)業(yè)崛起以來,“海大宇”、“AI視覺四小龍”等基于人工智能視覺技術(shù)和智能視頻處理技術(shù)的企業(yè)急速擴(kuò)張,智能視頻監(jiān)控和視覺識別技術(shù)得到充分發(fā)展,如今視頻監(jiān)控的可視范圍已經(jīng)達(dá)到上百米甚至更高,然而聲音的有效拾音范圍卻仍停留在室內(nèi)環(huán)境的應(yīng)用場景下,針對遠(yuǎn)場的技術(shù)還停留在軍用等特殊領(lǐng)域,隨著智慧城市建設(shè)的不斷推進(jìn),將遠(yuǎn)場拾音和視頻監(jiān)控相結(jié)合,實(shí)現(xiàn)基于異常聲音觸發(fā)的音視聯(lián)動已經(jīng)是大勢所趨。
深圳市微納感知計(jì)算技術(shù)有限公司(以下簡稱:微納感知)就是一家基于復(fù)雜場景下的機(jī)器聽覺解決方案專注者。從2013年起,微納感知便一直致力于機(jī)器聽覺技術(shù)及應(yīng)用的深度探索,經(jīng)過六年的持續(xù)深耕,微納感知正式進(jìn)軍安防市場,與諸多主流安防企業(yè)達(dá)成了戰(zhàn)略合作關(guān)系,共同推出了一系列覆蓋公安監(jiān)所、交通管控、遠(yuǎn)程教育、會議系統(tǒng)等細(xì)分領(lǐng)域的音視頻聯(lián)動產(chǎn)品及方案。
麥克風(fēng)陣列+智能算法,超遠(yuǎn)距離精準(zhǔn)拾音
與光學(xué)傳播過程不同,復(fù)雜場景下的聲音處理之所以一直沒有實(shí)現(xiàn)大規(guī)模應(yīng)用,主要是因?yàn)榧夹g(shù)層面確實(shí)存在較大困難,首先要將聲音從復(fù)雜環(huán)境中清晰的采集下來,其次要分析聲音包含的信息,而在聲音的傳播過程中,其能量不斷地被周圍環(huán)境所吸收,傳播距離越遠(yuǎn),聲音的衰減越劇烈,加上復(fù)雜環(huán)境下的噪聲干擾,聲學(xué)復(fù)雜度與聲場距離呈正相關(guān),以至于超過一定距離后,聲音就不易被人耳所能聽到,因此遠(yuǎn)距離拾音技術(shù)首先要解決的就是噪聲干擾難題。
微納感知采用麥克風(fēng)陣列智能遠(yuǎn)場拾音算法,通過在復(fù)雜聲場環(huán)境下的主動自適應(yīng)降噪和精準(zhǔn)去混響,濾除環(huán)境干擾噪聲(車輛引擎聲、剎車聲、電動 車鳴笛聲、建筑噪聲等),實(shí)現(xiàn)60米以上超遠(yuǎn)距離聲音信號拾取,輸出清晰自然的高保真語音;實(shí)現(xiàn)基于異常聲音事件檢測及特定目標(biāo)空間位置觸發(fā)的音視聯(lián)動處理,針對特殊音頻事件的音視頻監(jiān)測及預(yù)警告警處理。
AI聲音識別+音視聯(lián)動,全面感知多維態(tài)勢
作為微納感知核心技術(shù)之一,麥克風(fēng)陣列信號處理主要包括回聲消除、噪聲&混響抑制等,將聲音清晰采集下來后傳送到后端人工智能引擎,然后基于AI技術(shù)實(shí)現(xiàn)準(zhǔn)確率超過90%的聲音識別分析,比如識別槍聲、鳴笛聲、建筑工地施工噪音以及人聲聲紋檢測、連續(xù)語音識別等,從而滿足城市公共安全管理、建筑施工管理、道路交通管理、噪音治理等場景的各類應(yīng)用需求。
與此同時(shí),微納感知還將機(jī)器聽覺系統(tǒng)與攝像頭監(jiān)控系統(tǒng)進(jìn)行了深度融合,在平安城市視頻監(jiān)控的“千里眼”基礎(chǔ)之上,定制化打造了一副“順風(fēng)耳”,通過100毫秒極速音頻識別并聯(lián)動攝像機(jī)抓拍,實(shí)現(xiàn)基于異常聲音事件檢測及特定目標(biāo)空間位置觸發(fā)的音視聯(lián)動處理,針對特殊音頻事件(如槍聲、爆炸聲等)的音視頻監(jiān)測及預(yù)警告警處理,以及針對特定目標(biāo)空間位置,誤差小于0.5m的高精度定位處理,真正意義上做到聲色兼顧,所視即所聽。
覆蓋多元化應(yīng)用場景,有效解決城市管理難題
在城市管理業(yè)務(wù)中,微納感知超遠(yuǎn)場拾音產(chǎn)品及方案可有效滿足不同場景下的多元化需求,其中包括:
車輛鳴笛抓拍
全國主要一二線城市均已頒布禁止鳴笛規(guī)定,多數(shù)城市已對鳴笛進(jìn)行處罰,鑒于鳴笛聲音信號取證難,執(zhí)法難,鳴笛抓拍系統(tǒng)可有效管控車輛亂鳴笛,提升城市文明管理水平。
微納感知鳴笛抓拍系統(tǒng)通過專業(yè)聲學(xué)雷達(dá),濾除環(huán)境干擾噪聲,精準(zhǔn)鎖定目標(biāo)噪聲源位置,準(zhǔn)確定位到違章鳴笛車輛,其捕獲率高達(dá)95%以上,準(zhǔn)確率高達(dá)99%以上,同時(shí)還實(shí)現(xiàn)了聲音的可視化,為后臺智能管理系統(tǒng)提供直觀準(zhǔn)確的車輛鳴笛執(zhí)法證據(jù)。
公關(guān)安全管理
而在人流密集的廣場、公園、商場、車站等公共場所,方案可實(shí)現(xiàn)有效監(jiān)督非法集會、人群聚集,對特征詞匯進(jìn)行人聲識別和預(yù)警,從而有效監(jiān)控公共場所突發(fā)事件,快速響應(yīng)并采取預(yù)警措施,同時(shí)還能自動監(jiān)控呼救、謾罵、威脅等音頻信息,抓拍音視頻數(shù)據(jù)并入庫。
機(jī)器人聽覺系統(tǒng)
巡檢機(jī)器人集成遠(yuǎn)場拾音聽覺能力后,除視覺識別外,可有效探測幾十米內(nèi)特殊音頻信號(如呼救、爆炸、巨響、撞擊等聲音),并實(shí)時(shí)轉(zhuǎn)動攝像頭進(jìn)行定向巡視,形成音視頻立體防控的綜合能力,在遠(yuǎn)場環(huán)境中解決復(fù)雜聲學(xué)結(jié)構(gòu)、舵機(jī)噪音以及運(yùn)動狀態(tài)下陣列移擺等問題,同時(shí)檢測異常聲音事件并精準(zhǔn)定位,實(shí)現(xiàn)音視聯(lián)動、及時(shí)預(yù)警,擴(kuò)大基礎(chǔ)感知范圍,提升機(jī)器人復(fù)雜場景偵查和感知能力。
平安城市基建
遠(yuǎn)場拾音終端可安裝于路燈燈桿、監(jiān)控桿、信號桿等基礎(chǔ)設(shè)施,結(jié)合現(xiàn)有攝像頭進(jìn)行音視頻立體監(jiān)控,無需依賴光線即可實(shí)時(shí)獲取監(jiān)控范圍內(nèi)的聲音信號,有效改善過去“有畫面,無聲音”的監(jiān)控痛點(diǎn),提升甄別效率,預(yù)防聚眾、非法集會等行為,此外還能夠檢測噪聲,反映城市噪聲分布情況。
點(diǎn)評:
長期以來,機(jī)器視覺始終是我們在平安城市建設(shè)過程中的絕對核心,而聽覺系統(tǒng)則一定程度上地被忽略了,然而正是因?yàn)橛形⒓{感知這樣不斷鉆研、持續(xù)深耕的專注者,他們讓人們看到了機(jī)器聽覺在智慧城市建設(shè)中的巨大潛力和應(yīng)用價(jià)值。視頻能夠提供城市監(jiān)控、特征識別、視覺獲取等方方面面的信息,而“聽覺”將進(jìn)一步豐富和完善城市感知系統(tǒng)的維度,未來智慧城市建設(shè)不應(yīng)只有視頻監(jiān)控這雙“千里眼”,擁有一副“順風(fēng)耳”同樣舉足輕重,只有音視聯(lián)合,聲色兼顧,才能讓城市管理邁向精細(xì)化、智能化、科技化。