2月2日,人民網(wǎng)輿情數(shù)據(jù)中心與搜狗知音聯(lián)合發(fā)布了《智能語(yǔ)音大數(shù)據(jù)分析報(bào)告》,報(bào)告認(rèn)為社會(huì)已飛速進(jìn)入智能語(yǔ)音輸入時(shí)代,并深刻改變了網(wǎng)民的上網(wǎng)習(xí)慣及人們的社會(huì)生活。以搜狗知音為代表的智能語(yǔ)音技術(shù),準(zhǔn)確率達(dá)97%以上,并已經(jīng)在互聯(lián)網(wǎng)、教育醫(yī)療、車(chē)載軟件、智能家居等領(lǐng)域廣泛應(yīng)用,實(shí)現(xiàn)了從概念、技術(shù)到商業(yè)產(chǎn)品、功能應(yīng)用的跨越。其智能性、快速性、無(wú)需動(dòng)手性不但能滿(mǎn)足用戶(hù)多種復(fù)雜需求,也打破了中外語(yǔ)言、地區(qū)方言差異的壁壘,實(shí)現(xiàn)了無(wú)障礙交流溝通。
語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科,也被稱(chēng)為自動(dòng)語(yǔ)音識(shí)別。其目標(biāo)是將人類(lèi)的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話(huà)人識(shí)別及說(shuō)話(huà)人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話(huà)人而非其中所包含的詞匯內(nèi)容。
語(yǔ)音識(shí)別技術(shù)在國(guó)際的發(fā)展
早在三四十年前,美國(guó)的一些大學(xué)和實(shí)驗(yàn)室就開(kāi)始了語(yǔ)音識(shí)別技術(shù)的研究,50年代的AT&T Bell實(shí)驗(yàn)室研發(fā)的Audry系統(tǒng)第一個(gè)實(shí)現(xiàn)了可識(shí)別十個(gè)英文數(shù)字。60和70年代,提出了線(xiàn)性預(yù)測(cè)分析技術(shù)(LP)等相關(guān)理論并深入研究,創(chuàng)造出可以實(shí)現(xiàn)特定人孤立語(yǔ)音識(shí)別系統(tǒng);80年代和90年代是語(yǔ)音識(shí)別技術(shù)應(yīng)用研究方向的高潮,HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)的成功應(yīng)用,使得語(yǔ)音識(shí)別系統(tǒng)的性能比以往更優(yōu)異;伴隨著多媒體時(shí)代的來(lái)臨,微軟,Apple等著名公司都研發(fā)出相當(dāng)成功的商業(yè)應(yīng)用語(yǔ)音識(shí)別系統(tǒng),比如,Apple的Siri系統(tǒng),微軟的Phone Query(電話(huà)語(yǔ)音識(shí)別)引擎等。
語(yǔ)音識(shí)別技術(shù)在國(guó)內(nèi)的發(fā)展
我國(guó)的語(yǔ)音識(shí)別研究工作雖然起步較晚,但由于國(guó)家的重視,研究工作進(jìn)展順利,相關(guān)研究緊跟國(guó)際水平。由于中國(guó)有不可忽視的龐大市場(chǎng),國(guó)外對(duì)中國(guó)的語(yǔ)音識(shí)別技術(shù)也非常重視,漢語(yǔ)語(yǔ)音語(yǔ)義的特殊性也使得中文語(yǔ)音識(shí)別技術(shù)的研究更具有挑戰(zhàn)。但是,國(guó)內(nèi)研究機(jī)構(gòu)在進(jìn)行理論研究的同時(shí),應(yīng)注重語(yǔ)音識(shí)別系統(tǒng)在商業(yè)中的應(yīng)用,加快從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化。
二十世紀(jì)末,語(yǔ)音識(shí)別系統(tǒng)已經(jīng)在電腦游戲和玩具,不同樂(lè)器的控制,數(shù)據(jù)采集和聽(tīng)寫(xiě)等方面發(fā)現(xiàn)了廣泛的應(yīng)用。而在近二十年,由于人工智能和機(jī)器學(xué)習(xí)迅猛發(fā)展,語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,語(yǔ)音控制也變得更為實(shí)用,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。
《互聯(lián)網(wǎng)趨勢(shì)》報(bào)告中曾談及語(yǔ)音將是人機(jī)交互的新范式,語(yǔ)音技術(shù)將解放人類(lèi)雙手和眼睛,用戶(hù)以較低的成本實(shí)現(xiàn)隨時(shí)訪問(wèn)。人們預(yù)計(jì),未來(lái)10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車(chē)電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。未來(lái)與智能家居、可穿戴設(shè)備、機(jī)器人等交互模式,語(yǔ)音將是最佳人機(jī)交互模式。
近二十年,語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,但識(shí)別的準(zhǔn)確性問(wèn)題一直阻礙著智能語(yǔ)音的進(jìn)一步發(fā)展。目前在實(shí)際應(yīng)用中,我們看見(jiàn)語(yǔ)音識(shí)別多是在智能家居領(lǐng)域,比如智能家電或智能音箱。此時(shí),我們就需要考慮一個(gè)問(wèn)題了,當(dāng)多個(gè)家庭成員同時(shí)講話(huà)時(shí),智能家電或智能音箱該執(zhí)行誰(shuí)的命令呢?它們又如何能在眾多聲音中找出自己主人的命令?這些都是當(dāng)前語(yǔ)音識(shí)別所需要解決的問(wèn)題,畢竟我們通常所說(shuō)的語(yǔ)音識(shí)別不僅僅只是單純的對(duì)語(yǔ)音內(nèi)容進(jìn)行識(shí)別。
隨著準(zhǔn)確性的提升,語(yǔ)音識(shí)別應(yīng)用范圍將不斷拓寬,語(yǔ)音交互也逐漸成為可能。不過(guò)在語(yǔ)音識(shí)別更新迭代的過(guò)程中,新舊共存現(xiàn)象必可避免,在初期混亂的市場(chǎng)藍(lán)海中,只有看清發(fā)展大勢(shì),方能真正抓住機(jī)遇,迎來(lái)新發(fā)展。