前言:如果說(shuō)智慧城市的感知神經(jīng)其中有70%來(lái)自于基于視頻監(jiān)控的視覺(jué)系統(tǒng),那么,作為僅次于視覺(jué)信息量的聲音信息,將在智慧城市精細(xì)化管理的持續(xù)演進(jìn)過(guò)程中扮演著越來(lái)越重要的角色。本次a&s有幸邀請(qǐng)到業(yè)內(nèi)專注于機(jī)器聽覺(jué)技術(shù)的微納感知,為行業(yè)分享目前機(jī)器聽覺(jué)技術(shù)在智慧城市、安防等領(lǐng)域的應(yīng)用現(xiàn)狀和未來(lái)發(fā)展空間!
Q:a&s總經(jīng)理、總編輯 關(guān)玉娟女士
A:微納集成電路與系統(tǒng)應(yīng)用研究院院長(zhǎng) 張國(guó)新
微納感知計(jì)算技術(shù)有限公司 CTO 王 丹
Q:作為一家提供智能語(yǔ)音解決方案的企業(yè),貴司涉足安防領(lǐng)域的契機(jī)是什么?目前主要有哪些(安防領(lǐng)域)技術(shù)積累和產(chǎn)品鋪墊?
張國(guó)新:我本人早前在華為數(shù)字媒體所以接觸安防行業(yè)時(shí)間比較早,直到2013年微納集成電路與系統(tǒng)應(yīng)用研究院(以下簡(jiǎn)稱“研究院”)成立,當(dāng)時(shí)聲音在安防領(lǐng)域的應(yīng)用仍比較少見,而這也正透漏出一種機(jī)會(huì),于是我們開始把復(fù)雜環(huán)境下的聲音技術(shù)應(yīng)用作為公司未來(lái)的發(fā)展方向。經(jīng)過(guò)研究院三年左右的孵化,2016年我們正式將音頻業(yè)務(wù)獨(dú)立出來(lái),成立了微納感知技術(shù)公司。
公司的核心業(yè)務(wù)在于提供復(fù)雜場(chǎng)景下的智能語(yǔ)音解決方案。智慧城市場(chǎng)景下,聲音無(wú)疑是圖像信息最重要的補(bǔ)充,圍繞著城市安防建設(shè),繼視頻監(jiān)控系統(tǒng)之后,按照主次邏輯,接下來(lái)將會(huì)進(jìn)入音頻技術(shù)的大面積開發(fā)應(yīng)用階段。經(jīng)過(guò)六年左右的核心技術(shù)探索和積累,2018年微納感知正式進(jìn)軍安防市場(chǎng),目前我們已經(jīng)和部分安防廠家達(dá)成了合作,推出了包括公安監(jiān)所、交通管控、遠(yuǎn)程教育、會(huì)議系統(tǒng)等細(xì)分領(lǐng)域的音視頻聯(lián)動(dòng)產(chǎn)品和方案。
王 丹:復(fù)雜場(chǎng)景下的聲音處理之所以此前一直沒(méi)有大規(guī)模應(yīng)用主要是因?yàn)榧夹g(shù)實(shí)現(xiàn)上存在很大困難,首先要將聲音從復(fù)雜環(huán)境中清晰的采集下來(lái),其次要分析聲音包含的信息,這些其實(shí)都非常困難。不過(guò)微納感知從2013年便一直專注于機(jī)器聽覺(jué)技術(shù)的研究,這其中的技術(shù)核心就包括麥克風(fēng)陣列信號(hào)處理和基于AI技術(shù)的聲音內(nèi)容識(shí)別分析。
麥克風(fēng)陣列信號(hào)處理技術(shù)主要包括回聲消除、噪聲&混響抑制等,將聲音清晰采集下來(lái)后傳送到后端人工智能引擎,然后基于AI技術(shù)展開聲音類型識(shí)別分析的應(yīng)用,比如識(shí)別槍聲、鳴笛聲、建筑工地施工噪音以及人聲聲紋檢測(cè)、連續(xù)語(yǔ)音識(shí)別等等。
現(xiàn)階段我們積累的技術(shù)已經(jīng)能夠?qū)崿F(xiàn)商用化,并在一些行業(yè)領(lǐng)域正在展開相關(guān)應(yīng)用。
Q:目前聲學(xué)技術(shù)在安防領(lǐng)域的應(yīng)用現(xiàn)狀如何?
張國(guó)新:安防領(lǐng)域當(dāng)前仍以視頻監(jiān)控視覺(jué)系統(tǒng)為主,聲學(xué)技術(shù)的應(yīng)用還相對(duì)較少,應(yīng)用場(chǎng)景也比較窄眾,主要在司法領(lǐng)域的監(jiān)獄監(jiān)倉(cāng)有少量應(yīng)用且產(chǎn)品相當(dāng)傳統(tǒng),以低成本低性能的拾音器設(shè)備為主。對(duì)此我們推出了一套可適用于監(jiān)倉(cāng)的多麥陣列方案,可以更全面的收集監(jiān)倉(cāng)聲音信息。
不過(guò),隨著平安城市建設(shè)以及智慧城市精細(xì)化管理需求的顯著提升,相關(guān)政府職能部門對(duì)異聲檢測(cè)、城市噪音治理等方面的應(yīng)用有明顯的需求。比如交管部門對(duì)車輛鳴笛、改裝車噪音管控;城管部門對(duì)于城市噪音管理;住建部對(duì)建筑施工噪音的管理以及公安部門對(duì)于特殊人群聚集等這些都有很強(qiáng)的訴求。這些訴求將直接驅(qū)動(dòng)著聲學(xué)技術(shù)在實(shí)際應(yīng)用場(chǎng)景中作用方向,也蘊(yùn)含著智慧城市、安防領(lǐng)域聲學(xué)技術(shù)應(yīng)用的發(fā)展?jié)摿Α?/p>
現(xiàn)階段我們主要先從交通領(lǐng)域的鳴笛管控著手,微納感知的鳴笛抓拍系統(tǒng)可以通過(guò)專業(yè)聲學(xué)雷達(dá),濾除環(huán)境干擾噪聲(車輛引擎聲、剎車聲、電動(dòng)車?guó)Q笛聲、建筑噪聲等),精準(zhǔn)鎖定目標(biāo)噪聲源位置,準(zhǔn)確定位到違章鳴笛車輛,并將聲音可視化,為后臺(tái)智能管理系統(tǒng)提供直觀準(zhǔn)確的車輛鳴笛執(zhí)法證據(jù)。
Q:從利舊和成本方面考慮,鳴笛抓拍系統(tǒng)如何和現(xiàn)有的安防監(jiān)控系統(tǒng)對(duì)接?
王 丹:微納感知的鳴笛抓拍系統(tǒng)主要由聲學(xué)雷達(dá)、智能音頻分析單元、智能管理系統(tǒng)及網(wǎng)絡(luò)攝像機(jī)共同組成,前三部分都由我們來(lái)提供,因?yàn)榻涌诙际菢?biāo)配的,有很好的兼容性,所以這套系統(tǒng)其實(shí)可以直接加裝在現(xiàn)有的監(jiān)控系統(tǒng)上且無(wú)需用戶花太多成本去重新做整體改造。
另外,從成本角度來(lái)看,隨著安防整體解決方案日趨成熟,現(xiàn)在前端設(shè)備的成本已經(jīng)下降了很多。我們也在不斷嘗試,在保障產(chǎn)品和系統(tǒng)性能的基礎(chǔ)之上,實(shí)現(xiàn)TCO(擁有成本)的最優(yōu)化,即便是新建部署,也能讓用戶承受得起而不會(huì)成為負(fù)擔(dān)。
Q:貴司和安防廠商有哪些合作方式?
張國(guó)新:合作方式主要有兩種:一種是和安防設(shè)備商合作構(gòu)建音視頻聯(lián)動(dòng)完整的解決方案,安防設(shè)備廠商的前端監(jiān)控設(shè)備結(jié)合我們的聲學(xué)雷達(dá)加上智能音頻分析單元就構(gòu)成了一套相對(duì)完整的音視頻聯(lián)動(dòng)方案,后臺(tái)再和公安交警系統(tǒng)對(duì)接;另外一種是和其他的省、地市級(jí)集成商合作,我們一起構(gòu)建渠道,共同推進(jìn)智能音頻檢測(cè)整體解決方案在智慧城市行業(yè)領(lǐng)域的應(yīng)用。
Q:如果沒(méi)有政策引導(dǎo),您認(rèn)為對(duì)于監(jiān)控廠商而言,加裝聲學(xué)系統(tǒng)的驅(qū)動(dòng)力在哪里?
張國(guó)新:第一個(gè)在于可以挖掘智慧城市聲音信息的采集,聲音數(shù)據(jù)本身就有價(jià)值,未來(lái)隨著音視頻聯(lián)動(dòng)應(yīng)用的逐漸成熟,通過(guò)聲音信息的結(jié)構(gòu)化處理,聲音信息的應(yīng)用價(jià)值將更加凸顯。
第二,安防聲學(xué)技術(shù)可以更好的輔助交通違法處理、城市噪音管控等應(yīng)用,比如通過(guò)聽覺(jué)系統(tǒng)可實(shí)時(shí)性的鎖定鳴笛聲源,或者系統(tǒng)一接收到民眾呼救聲音就可以直接聯(lián)動(dòng)報(bào)警等等。
音頻雖然不是世界上目前最主流的要求,但整個(gè)城市的精細(xì)化管理已經(jīng)成為顯著方向,作為僅次于視頻的信息量最大的補(bǔ)充信息,音頻成為第二大感知系統(tǒng)這種概念將會(huì)在未來(lái)3-5年內(nèi)成為行業(yè)共同的認(rèn)知。
Q:目前階段,安防領(lǐng)域聲學(xué)技術(shù)應(yīng)用市場(chǎng)競(jìng)爭(zhēng)格局如何?
張國(guó)新:目前聲學(xué)技術(shù)在安防領(lǐng)域的應(yīng)用仍然處于初步嘗試階段,市場(chǎng)上能夠提供相關(guān)技術(shù)方案的廠家并不多。以鳴笛檢測(cè)技術(shù)方案為例,通過(guò)我們的場(chǎng)景實(shí)測(cè),可以肯定的說(shuō)微納感知的技術(shù)積累相對(duì)于友商而言是有一定優(yōu)勢(shì)的。
另一個(gè)優(yōu)勢(shì)在于此前我們已經(jīng)和優(yōu)必選等企業(yè)合作了安防機(jī)器人的產(chǎn)品方案,因此微納感知在安防機(jī)器人領(lǐng)域也占有一定技術(shù)應(yīng)用優(yōu)勢(shì)。結(jié)合這些技術(shù)積累和經(jīng)驗(yàn)優(yōu)勢(shì),相信我們未來(lái)在安防領(lǐng)域的覆蓋面會(huì)更廣泛。
Q:貴司目前安防這一塊的業(yè)務(wù)占比如何?
張國(guó)新:這幾年來(lái)我們一直專注于聲學(xué)技術(shù)方面的研究和突破,經(jīng)過(guò)幾年的積累,無(wú)論是在前端麥克風(fēng)陣列技術(shù)還是后端基于AI對(duì)聲音內(nèi)容的分析處理都已經(jīng)實(shí)現(xiàn)了一定程度的積累,接下來(lái)我們將進(jìn)入到推進(jìn)聲學(xué)技術(shù)在行業(yè)領(lǐng)域普及應(yīng)用的階段。
安防是我們重點(diǎn)看好的行業(yè)領(lǐng)域,我們期望未來(lái)在公司的智慧城市和安防業(yè)務(wù)占比能夠達(dá)到60%左右,不過(guò)現(xiàn)階段還在探索中,包括基于球機(jī)的聲音采集系統(tǒng),來(lái)幫助智慧城市完善基于聲音的信息源的大面積應(yīng)用。
Q:聲音不同于視頻圖像信息,它是動(dòng)態(tài)的且無(wú)形的,在樣本采集和聲紋庫(kù)建設(shè)方面是否存有難點(diǎn)?
王 丹:其實(shí)跟視頻圖像的采集是類似的方式,只不過(guò)視頻以幀為單位,而聲音是連續(xù)的。計(jì)算機(jī)視覺(jué)有典型的ImageNet數(shù)據(jù)集,聲紋數(shù)據(jù)集現(xiàn)在還比較少,主要是由像微納感知這樣的企業(yè)自主建設(shè)子集數(shù)據(jù)集,相信未來(lái)隨著業(yè)內(nèi)機(jī)器聽覺(jué)技術(shù)應(yīng)用的爆發(fā),產(chǎn)業(yè)將會(huì)逐漸成熟。
而公安聲紋庫(kù)現(xiàn)階段也在逐步建設(shè),還是會(huì)像視頻監(jiān)控人臉庫(kù)建設(shè)一樣分期進(jìn)行,比如一期主要采集特殊人群的聲紋信息,二期才會(huì)建大量的常規(guī)聲紋信息庫(kù),未來(lái)公民身份信息將會(huì)包含人像、指紋以及聲紋等,整體建設(shè)方向大概是這樣。
張國(guó)新:我們也有一些合作伙伴正在收集聲音方面的信息,包括鳴笛聲、城市噪音和聲紋信息等,國(guó)家聲紋庫(kù)的建設(shè)在逐漸進(jìn)展,但我們?cè)诩夹g(shù)方面的研發(fā)也會(huì)同時(shí)進(jìn)行,即可用也可訓(xùn)練,這個(gè)過(guò)程是相輔相成的。
Q:機(jī)器聽覺(jué)未來(lái)有沒(méi)有可能作為視頻圖像偵查的補(bǔ)充,構(gòu)成公安實(shí)戰(zhàn)應(yīng)用的重要一環(huán)?
王 丹:這個(gè)是我們作為機(jī)器聽覺(jué)技術(shù)和方案廠家的重要方向。現(xiàn)階段,公安實(shí)戰(zhàn)應(yīng)用主要以視頻偵查為主,而隨著聲學(xué)技術(shù)的日趨成熟,視頻圖像+聲音信息的補(bǔ)充,將會(huì)將公安實(shí)戰(zhàn)推到一個(gè)新的階段。
但要達(dá)成這種級(jí)別的應(yīng)用,還有很多技術(shù)需要先行突破。因?yàn)槿绻鳛楣矊?shí)戰(zhàn)應(yīng)用的補(bǔ)充,首先要控制系統(tǒng)的誤報(bào)率,這對(duì)于現(xiàn)階段的行業(yè)技術(shù)水平有比較大的挑戰(zhàn)。我們針對(duì)這方面也做了一些特別的處理,從監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)兩方面著手,來(lái)降低系統(tǒng)的誤報(bào)率。
Q:現(xiàn)階段而言,聲學(xué)技術(shù)的廣泛應(yīng)用還有哪些現(xiàn)存難點(diǎn)?
王 丹:首先在技術(shù)方面,應(yīng)用環(huán)境的復(fù)雜性對(duì)機(jī)器聽覺(jué)系統(tǒng)的效能影響比較大。聲音和距離的平方成反比,一段聲音在空氣中的傳播,20米的距離衰減值大概有26Db,這是基本的理論值。其中一個(gè)大的難點(diǎn)在于,由于在戶外環(huán)境聲和人聲的分貝值基本相等,所以要從環(huán)境聲中清晰準(zhǔn)確的還原出人聲,這項(xiàng)技術(shù)有很大的難點(diǎn),我們經(jīng)過(guò)這幾年的專注和積累才找到了一些技術(shù)突破。
其次,市場(chǎng)對(duì)于聲學(xué)技術(shù)的應(yīng)用仍處于探索階段,市場(chǎng)需求雖然廣泛存在,但距離技術(shù)落地應(yīng)用仍然需要我們這樣的企業(yè)攜手合作伙伴加快推進(jìn)。與此同時(shí),我們也非常期待政府層面能夠發(fā)力推出相關(guān)產(chǎn)業(yè)標(biāo)準(zhǔn)來(lái)進(jìn)一步做市場(chǎng)引導(dǎo),讓聲學(xué)技術(shù)在智慧城市以及細(xì)分行業(yè)領(lǐng)域的應(yīng)用更快的成為共識(shí)。
Q:籍由這次采訪,您想向產(chǎn)業(yè)傳達(dá)什么訊息?
張國(guó)新:聲學(xué)技術(shù)在智慧城市領(lǐng)域的應(yīng)用,其中政府部門的需求引導(dǎo)和產(chǎn)業(yè)推動(dòng)意義很大,目前相關(guān)落地應(yīng)用仍然依賴著產(chǎn)品技術(shù)和應(yīng)用企業(yè)的推進(jìn),作為聲學(xué)技術(shù)方案提供商,我們已經(jīng)完成了技術(shù)研究的基礎(chǔ)工作,進(jìn)入到應(yīng)用階段。人工智能和感知計(jì)算是未來(lái)我們國(guó)家的戰(zhàn)略產(chǎn)業(yè),我們非常期待政府部門能夠牽頭來(lái)助力聲學(xué)技術(shù)在智慧城市、安防、教育、金融等領(lǐng)域的大面積應(yīng)用,以應(yīng)用促進(jìn)產(chǎn)業(yè)和技術(shù)的更為良性的發(fā)展。
編后語(yǔ):
在以前的智慧城市建設(shè)中,我們更多的關(guān)注在以視頻監(jiān)控系統(tǒng)所構(gòu)建的“城市視覺(jué)系統(tǒng)”的應(yīng)用方面,而本次通過(guò)對(duì)微納感知的訪談,讓我們打開了挖掘“城市聽覺(jué)系統(tǒng)”應(yīng)用的新思路。
視頻能夠完成城市監(jiān)控、特征識(shí)別、視覺(jué)獲取等方方面面的信息,而在眼睛看不到的地方,“聽覺(jué)”系統(tǒng)的補(bǔ)充將進(jìn)一步豐富和完善城市感知系統(tǒng)的維度。機(jī)器聽覺(jué)在智慧城市的應(yīng)用大有可為,從視聽交互、聲紋識(shí)別、聽覺(jué)判斷到語(yǔ)言學(xué)習(xí),通過(guò)音視頻聯(lián)動(dòng),可以構(gòu)建起城市實(shí)時(shí)感知的“眼睛”“耳朵”,由此來(lái)進(jìn)一步提升城市精細(xì)化管理水平。