文 / 王唯 上海云思智慧信息技術(shù)有限公司 產(chǎn)品研發(fā)中心 副總經(jīng)理
1. 語(yǔ)音識(shí)別技術(shù)的現(xiàn)狀
語(yǔ)言是人類(lèi)最自然的交互方式。數(shù)萬(wàn)年來(lái)人類(lèi)通過(guò)進(jìn)化獲得的語(yǔ)言交流能力,相比其他的交互方式具有更多的優(yōu)勢(shì)。當(dāng)計(jì)算機(jī)發(fā)明之后,人類(lèi)與機(jī)器的交流雖然暫時(shí)受限于鼠標(biāo)鍵盤(pán)等面向機(jī)器的交互方式,但卻從不阻擋人類(lèi)讓機(jī)器能夠聽(tīng)懂人類(lèi)的語(yǔ)言、理解語(yǔ)言中的內(nèi)在含義、做出正確回答的探索。這些場(chǎng)景反復(fù)出現(xiàn)在科幻電影中,那些智能先進(jìn)的機(jī)器人助手,通過(guò)語(yǔ)言與人類(lèi)完成自由地交流。
縱觀計(jì)算機(jī)模擬人類(lèi)語(yǔ)言交流的整個(gè)過(guò)程,包括傾聽(tīng)-理解-思考-表達(dá)四個(gè)階段。當(dāng)前計(jì)算機(jī)領(lǐng)域,按照技術(shù)難易度及普及順序,大致也可以分為以下四類(lèi)與之相對(duì)應(yīng)的技術(shù)研究:
自然語(yǔ)言生成——將大腦產(chǎn)生的思想轉(zhuǎn)換成語(yǔ)言
語(yǔ)言合成——將語(yǔ)言轉(zhuǎn)換為相應(yīng)的語(yǔ)音
語(yǔ)音識(shí)別——識(shí)別語(yǔ)言中表達(dá)的語(yǔ)音內(nèi)容
自然語(yǔ)言理解——理解語(yǔ)音表達(dá)的語(yǔ)言含義
其中,語(yǔ)音識(shí)別技術(shù)是指機(jī)器自動(dòng)將人的語(yǔ)言轉(zhuǎn)成文字,又稱(chēng) Automatic Speech Recognition,即ASR技術(shù)。它是一門(mén)涉及聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、情感學(xué)、心理學(xué)、信息理論、模式識(shí)別理論、數(shù)字信號(hào)處理、人工智能、數(shù)理統(tǒng)計(jì)學(xué)等多學(xué)科交叉的科學(xué)。近年來(lái),隨著人工智能的興起,語(yǔ)音識(shí)別技術(shù)在理論和應(yīng)用方面都取得大突破,不僅開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng),并且已逐漸走進(jìn)我們的日常生活。
語(yǔ)音識(shí)別的本質(zhì)是一種基于語(yǔ)音特征參數(shù)的模式識(shí)別,即通過(guò)學(xué)習(xí),系統(tǒng)能夠把輸入的語(yǔ)音按一定模式進(jìn)行分類(lèi),進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。
從語(yǔ)音識(shí)別算法的發(fā)展來(lái)看,語(yǔ)音識(shí)別技術(shù)主要分為三大類(lèi),第一類(lèi)是模型匹配法,包括矢量量化(VQ) 、動(dòng)態(tài)時(shí)間規(guī)整(DTW)等;第二類(lèi)是概率統(tǒng)計(jì)方法,包括高斯混合模型(GMM) 、隱馬爾科夫模型(HMM)等;第三類(lèi)是辨別器分類(lèi)方法,如支持向量機(jī)(SVM) 、人工神經(jīng)網(wǎng)絡(luò)(ANN)和深度神經(jīng)網(wǎng)絡(luò)(DNN)等。
目前語(yǔ)音識(shí)別技術(shù)已經(jīng)是相對(duì)成熟(商用)的技術(shù),各家主流公司均宣稱(chēng)語(yǔ)音識(shí)別率達(dá)到了97%,甚至98%。現(xiàn)在語(yǔ)音識(shí)別已用于許多領(lǐng)域,主要包括語(yǔ)音識(shí)別聽(tīng)寫(xiě)器、語(yǔ)音尋呼和答疑平臺(tái)、自主廣告平臺(tái),智能客服等。但需要指出的是,主流公司宣稱(chēng)的語(yǔ)音識(shí)別率一般是需要用戶(hù)在安靜環(huán)境下,近距離、原地不動(dòng)、慢慢地、認(rèn)真清晰發(fā)音時(shí)測(cè)試的結(jié)果。在實(shí)際場(chǎng)景,往往有很多種異常情況都會(huì)導(dǎo)致語(yǔ)音識(shí)別的效果大打折扣,比如距離太遠(yuǎn)、發(fā)音不標(biāo)準(zhǔn)、環(huán)境嘈雜、中間有時(shí)不時(shí)的打斷等等。
所以語(yǔ)音識(shí)別技術(shù)在實(shí)際應(yīng)用中,受限于特定的場(chǎng)景,同時(shí)還需要有各種解決方案來(lái)配合。這雖然是一個(gè)應(yīng)用落地比較現(xiàn)實(shí)的問(wèn)題,但并不影響我們做產(chǎn)品demo和初步的產(chǎn)品化工作,反而是我們AI產(chǎn)品經(jīng)理的發(fā)揮機(jī)會(huì)——用產(chǎn)品體驗(yàn)設(shè)計(jì)來(lái)優(yōu)化(彌補(bǔ))純技術(shù)效果的不足。
2. 語(yǔ)音識(shí)別技術(shù)的發(fā)展與挑戰(zhàn)
在協(xié)作工作模式下,我們常常通過(guò)開(kāi)會(huì)來(lái)布置、協(xié)調(diào)、研討工作,以達(dá)成集思廣益、信息交流、加強(qiáng)領(lǐng)導(dǎo)、協(xié)調(diào)矛盾等目的。雖然現(xiàn)代辦公中,部分工作場(chǎng)景可以通過(guò)郵件、電話(huà)、工作群、OA系統(tǒng)、博客討論組、遠(yuǎn)程視頻會(huì)議等在線(xiàn)方式替代,但面對(duì)面的會(huì)議溝通仍然是辦公行為中非常重要的方式。這也是在生產(chǎn)工具私有化后,共享移動(dòng)辦公未能占據(jù)辦公模式中絕對(duì)地位的重要因素。
正是由于會(huì)議的重要性,在基礎(chǔ)建設(shè)中會(huì)議區(qū)單位面積的投資比例數(shù)倍于辦公區(qū)域。會(huì)議室建設(shè)的早期階段,其建設(shè)目標(biāo)集中定位在電子會(huì)議室。大家更關(guān)注從電子設(shè)備角度實(shí)現(xiàn)會(huì)議內(nèi)容電子化、會(huì)議設(shè)施自動(dòng)化:
會(huì)議內(nèi)容電子化——通過(guò)顯示、擴(kuò)聲等技術(shù)實(shí)現(xiàn)多媒體會(huì)議,豐富會(huì)議的表現(xiàn)形式。
會(huì)議設(shè)施自動(dòng)化——通過(guò)會(huì)議中控技術(shù)實(shí)現(xiàn)會(huì)議設(shè)施自動(dòng)化管理,方便會(huì)議操作。
會(huì)議室建設(shè)接下來(lái)的階段,人們將視線(xiàn)投向會(huì)議組織過(guò)程,通過(guò)人、物、場(chǎng)、過(guò)程的在線(xiàn),重構(gòu)優(yōu)化會(huì)前、會(huì)中、會(huì)后全會(huì)議生命周期過(guò)程:
人的在線(xiàn)——通過(guò)手機(jī)應(yīng)用、人員定位、人臉識(shí)別等方式顯示人員的在線(xiàn)狀態(tài)。
物的在線(xiàn)——全面集成會(huì)議設(shè)施,從關(guān)注管理切換到關(guān)注使用面場(chǎng)景,面向最終使用者在線(xiàn)開(kāi)放能力單元。
場(chǎng)的在線(xiàn)——基于IoT技術(shù),結(jié)合空間管理類(lèi)應(yīng)用,實(shí)現(xiàn)會(huì)議室及其相關(guān)配套場(chǎng)所的在線(xiàn)。
過(guò)程在線(xiàn)——結(jié)合人、物、場(chǎng)鏡像構(gòu)建的虛擬孿生世界,重構(gòu)優(yōu)化會(huì)前、會(huì)中、會(huì)后全會(huì)議生命周期過(guò)程,提升效率并為更深層次的大數(shù)據(jù)衍生應(yīng)用打下基礎(chǔ)。
走到這一步,很自然地就能發(fā)現(xiàn)下一步要做的事情就是會(huì)議內(nèi)容的在線(xiàn)。會(huì)議參與者是通過(guò)內(nèi)容作為媒介促成了會(huì)議目的的達(dá)成。因此在一場(chǎng)會(huì)議中,我們將會(huì)議內(nèi)容定義成靈魂一樣重要毫不為過(guò)。在第一步中,我們通過(guò)顯示、擴(kuò)聲設(shè)備確實(shí)實(shí)現(xiàn)了會(huì)議內(nèi)容的信息化。但記錄下來(lái)的內(nèi)容僅僅是諸如音視頻錄像為主的非結(jié)構(gòu)化內(nèi)容,難于查閱、分享、檢索,更無(wú)法形成知識(shí)點(diǎn)分段利用。這種大塊的非結(jié)構(gòu)數(shù)據(jù)就猶如一潭靜態(tài)的死水不具有流動(dòng)性特征,因此不滿(mǎn)足在線(xiàn)使用對(duì)任意時(shí)間、任意地點(diǎn)、任意方式等特點(diǎn)的要求。
雖然以前做不到內(nèi)容的真在線(xiàn),但伴隨著AI技術(shù)在語(yǔ)音識(shí)別領(lǐng)域的長(zhǎng)足發(fā)展,未來(lái)會(huì)議信息化也逐漸進(jìn)入了應(yīng)用的深水區(qū)。人類(lèi)通過(guò)閱讀獲取信息的速度遠(yuǎn)遠(yuǎn)高于通過(guò)收聽(tīng)方式接受信息。一場(chǎng)兩小時(shí)的會(huì)議錄像,如果采用會(huì)議紀(jì)要形式傳閱,僅僅需要很短的時(shí)間就能遍歷、快速發(fā)現(xiàn)重點(diǎn),并通過(guò)精讀方式獲取有效信息。于是主流廠商都將精力投向于會(huì)議紀(jì)要的轉(zhuǎn)寫(xiě)應(yīng)用。
目前語(yǔ)音識(shí)別AI算法建立的基礎(chǔ)是在近距離、安靜環(huán)境上的,同時(shí)發(fā)言人的語(yǔ)速、普通話(huà)標(biāo)準(zhǔn)程度等因素也對(duì)識(shí)別率影響較大。因此目前主推的會(huì)議紀(jì)要轉(zhuǎn)寫(xiě)僅僅適合于單人話(huà)筒發(fā)言、發(fā)言?xún)?nèi)容有精心準(zhǔn)備、發(fā)言者語(yǔ)言表達(dá)能力優(yōu)秀的場(chǎng)景,例如新聞發(fā)布會(huì)。而大多數(shù)會(huì)議環(huán)境中,由于環(huán)境噪音、多人交互重疊發(fā)言、發(fā)言?xún)?nèi)容需要現(xiàn)場(chǎng)組織存在停頓、重讀、縮略等特點(diǎn),導(dǎo)致最終生成的會(huì)議轉(zhuǎn)寫(xiě)紀(jì)要可讀性非常差。筆者曾試用過(guò)大多數(shù)一線(xiàn)廠商會(huì)議紀(jì)要轉(zhuǎn)寫(xiě)產(chǎn)品,從主觀上看,這些紀(jì)要甚至不如直接聽(tīng)錄音。更麻煩的是目前主流公司均宣稱(chēng)語(yǔ)音識(shí)別率已經(jīng)高達(dá)97%,未來(lái)不太可能有太多進(jìn)一步提升的空間。而且就算還能提升,也無(wú)法解決因外部環(huán)境干擾對(duì)紀(jì)要可讀性的影響。會(huì)議紀(jì)要轉(zhuǎn)寫(xiě)產(chǎn)品似乎走入了死胡同。
3. 語(yǔ)音識(shí)別技術(shù)在會(huì)議中的運(yùn)用
天生我材必有用!語(yǔ)音識(shí)別通過(guò)人工智能技術(shù)已經(jīng)將語(yǔ)音識(shí)別率提高到了97%,盡管受限于非理想場(chǎng)景,在絕大多數(shù)實(shí)際場(chǎng)景中會(huì)議紀(jì)要轉(zhuǎn)寫(xiě)未必能夠達(dá)到良好的閱讀要求,但我們?nèi)圆豢煞裾J(rèn),在轉(zhuǎn)寫(xiě)記錄中已經(jīng)初步提煉出大量可分析的信息。這就像原油,里面包含了有用的東西和無(wú)用的東西。后續(xù)我們要做的事情就應(yīng)該像石化企業(yè)一樣,將有用的部分給提取出來(lái)形成信息,并找到需要使用這種信息的場(chǎng)景。
原油本身質(zhì)量的高低并不決定提煉出來(lái)的東西是否有價(jià)值,只是會(huì)影響到提煉的難度及成本。如果按照這樣的思路構(gòu)建應(yīng)用,我們就不會(huì)再糾結(jié)地等待語(yǔ)音轉(zhuǎn)文本的進(jìn)一步提升準(zhǔn)確率,而是現(xiàn)在就有的數(shù)據(jù),現(xiàn)在就應(yīng)該有應(yīng)用它的場(chǎng)景。
這也符合當(dāng)下從精準(zhǔn)的小數(shù)據(jù)思維轉(zhuǎn)向模糊的大數(shù)據(jù)思維?;ヂ?lián)網(wǎng)時(shí)代,網(wǎng)絡(luò)上非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了當(dāng)前數(shù)據(jù)海洋的80%,并在截止2020年前以每年44倍的數(shù)據(jù)快速增長(zhǎng)。這些數(shù)據(jù)均是難于在一定時(shí)間內(nèi)用常規(guī)軟件工具進(jìn)行內(nèi)容抓取、管理和處理的,但具備數(shù)據(jù)再利用的沉默價(jià)值特征??纯垂雀?、百度等搜索引擎在做什么事情,本質(zhì)上他們也是在做非結(jié)構(gòu)化數(shù)據(jù)的提煉工作,同時(shí)他們并沒(méi)有刻意去要求源頭數(shù)據(jù)必須如何精準(zhǔn)。
借鑒這樣的思維,我們可以把語(yǔ)音識(shí)別技術(shù)在會(huì)議中的應(yīng)用分為三個(gè)層次:
數(shù)據(jù)轉(zhuǎn)換——音頻數(shù)據(jù)是難于衡量的,我們需要借助語(yǔ)音識(shí)別技術(shù)將其轉(zhuǎn)換為文本數(shù)據(jù)。這個(gè)數(shù)據(jù)雖然是不精準(zhǔn)的,但不可否認(rèn)中間蘊(yùn)含有豐富的可用信息,正如原油一樣。
信息提取——有了不精準(zhǔn)的非結(jié)構(gòu)化文本數(shù)據(jù),我們就可以借助搜索引擎檢索其中的關(guān)鍵字、常用字、高頻字,形成可衡量的標(biāo)簽并與音軌對(duì)應(yīng)。通過(guò)這種映射,我們就能實(shí)現(xiàn)以前做不到的音頻檢索。一場(chǎng)會(huì)議的錄音往往是很冗長(zhǎng)的,通過(guò)這種檢索我們就能幫助會(huì)后快速定位到感興趣的內(nèi)容。如果語(yǔ)音轉(zhuǎn)寫(xiě)記錄效果不好,我們可以直接點(diǎn)擊音頻錄像播放,從而大大提升了會(huì)議回顧效率。未來(lái)我們還想借助聲紋識(shí)別技術(shù)定位每一個(gè)發(fā)言人,那么又可以在“誰(shuí)的發(fā)言”這個(gè)維度形成標(biāo)簽,支持按發(fā)言人進(jìn)行檢索。
信息利用——當(dāng)信息提取出來(lái)后,我們就可以依據(jù)不同人群不同場(chǎng)景的需求使之對(duì)應(yīng)到具體業(yè)務(wù)中,從而串接成更大的應(yīng)用邏輯,做到信息的再利用,這是一個(gè)逐步發(fā)掘完善的過(guò)程。以前沒(méi)有這么想是因?yàn)闆](méi)有做到會(huì)議數(shù)據(jù)的結(jié)構(gòu)化,未來(lái)會(huì)有很多在這方面的探索。以下我們僅僅舉例說(shuō)明其廣闊的價(jià)值:
數(shù)字會(huì)議紀(jì)要——以前人工記錄會(huì)議紀(jì)要,由于涉及到記錄員專(zhuān)業(yè)水平、理解能力、概括能力等影響,很多時(shí)候紀(jì)要的準(zhǔn)確性很差。但又沒(méi)有其他較好的辦法會(huì)后獲取原意?,F(xiàn)在我們就能將每條紀(jì)要對(duì)應(yīng)到標(biāo)簽指向的音頻,從而提高會(huì)議紀(jì)要的準(zhǔn)確性及可用性。
知識(shí)圖譜——當(dāng)語(yǔ)音標(biāo)簽通過(guò)會(huì)議紀(jì)要或其他方式在不同的人群中流動(dòng)的時(shí)候,我們就可以通過(guò)點(diǎn)贊、推薦、朋友在看等當(dāng)下大家習(xí)慣的信息接受方式,讓有價(jià)值的內(nèi)容從一堆混雜信息中進(jìn)一步浮現(xiàn)出來(lái)。并且這種方式是無(wú)需雇用專(zhuān)人進(jìn)行整理的,且抽取出來(lái)的內(nèi)容更容易受大眾接受。選舉一個(gè)例子,未來(lái)企業(yè)中我們可以通過(guò)了解管理者關(guān)注會(huì)議中的哪一部分內(nèi)容,從而使管理者與員工在組織愿景和日常工作中迅速地聯(lián)系起來(lái)。
事項(xiàng)跟蹤——一場(chǎng)會(huì)議中一般均會(huì)涉及多項(xiàng)事件議程,我們回顧一場(chǎng)會(huì)議的記錄實(shí)質(zhì)上是橫向地了解它所包含范圍內(nèi)所有事件的近況。但更多時(shí)候,我們更想知道一個(gè)事項(xiàng)從開(kāi)始到現(xiàn)在整個(gè)縱向上面的信息,尤其是需要在會(huì)議中討論的重要信息。更難的是,往往同一個(gè)事項(xiàng)會(huì)依據(jù)分工在多個(gè)級(jí)別、不同參與者的會(huì)議中并行討論,這樣就很難有好的方式收集全局信息。以前沒(méi)有好的辦法解決這個(gè)問(wèn)題,但在有價(jià)值的語(yǔ)音標(biāo)簽之后,我們就有了把不同會(huì)議按照我們目的縱向串接起來(lái)的可能。
諸如此類(lèi)的應(yīng)用還會(huì)有很多,以前沒(méi)有語(yǔ)音識(shí)別技術(shù)無(wú)法實(shí)現(xiàn)第一步,所有后面的事情大家都沒(méi)有這樣想,但相信有人工智能加持后,未來(lái)人類(lèi)行為方式會(huì)得到加速進(jìn)化。
工業(yè)社會(huì)經(jīng)濟(jì)的助推劑是能源,能源決定了我們大規(guī)模生產(chǎn)的成本及產(chǎn)能。最具經(jīng)濟(jì)代表性是石油,因此我們當(dāng)下也公認(rèn)為活在石油經(jīng)濟(jì)時(shí)代。未來(lái)科技社會(huì)經(jīng)濟(jì)的助推劑是數(shù)據(jù),數(shù)據(jù)決定了我們能夠造出什么具有競(jìng)爭(zhēng)力的產(chǎn)品,我們把這個(gè)時(shí)代稱(chēng)為知識(shí)經(jīng)濟(jì)時(shí)代。