文/龍夢竹(現(xiàn)任思必馳信息科技有限公司市場總監(jiān))
在智能語音技術(shù)方面,就國際市場而言,已經(jīng)形成了Nuance、谷歌、蘋果、微軟等IT巨頭的壟斷格局。放眼國內(nèi)市場,科大訊飛、百度、思必馳等智能語音解決方案各顯其色,常年致力于領(lǐng)先的中文語音信息處理技術(shù)。
但是,對(duì)比國內(nèi)外技術(shù)實(shí)力,當(dāng)前國內(nèi)的智能語音技術(shù)在人機(jī)交互方面仍舊存在很大提升空間,主要有以下表現(xiàn):
智能硬件“聽不懂”
出現(xiàn)該問題的原因無非是“沒聽清”和“不理解”。“沒聽清”是由于語音識(shí)別功能出現(xiàn)了問題,噪聲環(huán)境、識(shí)別距離、硬件回聲等均是語音識(shí)別的關(guān)鍵因素,如果處理不當(dāng)便會(huì)導(dǎo)致識(shí)別率不同程度的降低;“不理解”是由于語義理解不夠深入而導(dǎo)致,說話人不同,講話習(xí)慣、音調(diào)、音速等也各不相同,上下文語境千差萬別的情況下,如果不能結(jié)合語境進(jìn)行深度學(xué)習(xí),語義理解難免差強(qiáng)人意,更談不上能夠進(jìn)行多輪交互了。
智能硬件“不聰明”
智能硬件“不聰明”表現(xiàn)為:無法根據(jù)要求提供相應(yīng)的信息,定制功能缺失。無論是智能語音,還是人臉識(shí)別、圖像識(shí)別等技術(shù),都只是實(shí)現(xiàn)人機(jī)交互的手段和工具,人類真正的交互對(duì)象是資源。當(dāng)前人機(jī)交互存在的很大問題是資源不足,不能滿足人們多樣的功能需求,如電話、社交、音樂、電臺(tái)、導(dǎo)航、地圖、天氣查詢、票務(wù)查詢等等,智能硬件顯得很不智能。當(dāng)前智能硬件的后端服務(wù)集成尚未能滿足當(dāng)前用戶的需要。
針對(duì)智能硬件“聽不懂”的問題,亟待解決的是語音識(shí)別和語義理解問題。在語音識(shí)別方面,角度、距離、回聲、噪聲等因素均能夠?qū)ψ罱K的識(shí)別效果產(chǎn)生極大的影響。確定合適的拾音角度和拾音范圍、距離,有效降噪和消除回聲,來進(jìn)行準(zhǔn)確的聲源定位,是識(shí)別的關(guān)鍵一步。當(dāng)前國內(nèi)市場很多企業(yè)已經(jīng)陸續(xù)推出了相應(yīng)的解決方案,例如 5麥麥克風(fēng)陣列,可進(jìn)行快速集成,但是成本稍高,適合小批量產(chǎn)品。中國科學(xué)院聲學(xué)所的8麥技術(shù)方案,針對(duì)會(huì)議系統(tǒng),且目前的市場應(yīng)用并不廣泛。另一方面,還有環(huán)形“6+1”麥克風(fēng)陣列,可進(jìn)行360°無死角拾音,準(zhǔn)確進(jìn)行聲源定位,并采用獨(dú)有算法的降噪和回聲消除技術(shù),有效克服了語音識(shí)別過程中,隨著語音傳播距離加大,因語音本身的衰減,混響、背景噪音、人聲干擾和回聲加大等技術(shù)難點(diǎn)帶來的阻力,實(shí)現(xiàn)業(yè)內(nèi)領(lǐng)先的遠(yuǎn)場5米交互識(shí)別率92%以上,識(shí)別和交互效果能夠媲美近場。由此可見,當(dāng)下從事于語音技術(shù)的企業(yè)均從科技研發(fā)角度出發(fā),從解決實(shí)際應(yīng)用場景下的產(chǎn)品需求出發(fā),從而著力解決語音識(shí)別和人機(jī)交互的這一大問題。
智能語音如何推動(dòng)人機(jī)交互
語義理解的關(guān)鍵是結(jié)合上下文語境進(jìn)行深度學(xué)習(xí)。然而,在真實(shí)場景下,傳統(tǒng)語音識(shí)別加自然語言處理的方案并不能很好地實(shí)現(xiàn)自由的“人機(jī)交互”。微軟研究院表示,基于上下文的理解是微軟自然語言處理組正在解決的重點(diǎn)問題,Cortana助手中就初步實(shí)現(xiàn)了上下文語義理解??拼笥嶏w也在年度發(fā)布會(huì)上表示,“糾正、打斷”是自然交互的本質(zhì)要求,且糾錯(cuò)是人機(jī)語音交互的一個(gè)標(biāo)準(zhǔn),其對(duì)話系統(tǒng)也已經(jīng)實(shí)現(xiàn)基于上下文的理解。而我認(rèn)為基于上下文的理解是認(rèn)知智能的主要表現(xiàn)之一,也是解決語音識(shí)別錯(cuò)誤的最有效途徑之一,業(yè)界也已經(jīng)有“支持打斷和智能糾正”的認(rèn)知型對(duì)話系統(tǒng)及相關(guān)場景解決方案誕生。
人機(jī)交互的另一端是資源,豐富的第三方服務(wù)內(nèi)容可使智能硬件變得更聰明,匯集大量的資源功能才能有效提升后端服務(wù)質(zhì)量。所謂的智能語音解決方案,應(yīng)該能夠支持安卓、linux、QNX等主流操作系統(tǒng),并集成豐富的第三方服務(wù)資源,例如微信、高德地圖、酷我音樂、蝦米音樂、喜馬拉雅FM、考拉電臺(tái)、神馬搜索、大眾點(diǎn)評(píng)、墨跡天氣、百度天氣、攜程、百度股票等等,為用戶提供社交、周邊搜索、導(dǎo)航、音樂電臺(tái)、天氣日歷等多功能服務(wù)。豐富的第三方服務(wù)資源供智能硬件隨時(shí)交互提取使用,具備這些基本條件,智能硬件才能變得更聰明、更智能,人機(jī)交互才能變得更流暢完美。
操作再簡易的APP 也不如一句話來得簡單
智能語音的不斷發(fā)展也在推動(dòng)著人機(jī)交互的不斷進(jìn)步,拋棄傳統(tǒng)APP/遙控器等移動(dòng)終端的控制,實(shí)現(xiàn)全語音自動(dòng)操控,智能硬件也能越來越能夠琢磨透人類的思想,追蹤行動(dòng)意圖,隨著智能硬件、智能家居的不斷發(fā)展,作為主要交互方式的語音交互技術(shù)的發(fā)展也將邁上一個(gè)新臺(tái)階,畢竟操作再簡易的APP控制,都沒有用戶口中的一句話來得簡單,語音交互技術(shù)將很大程度上幫助人們將生活變得更加智能、便捷。
總而言之,智能語音的痛點(diǎn)始終放緩了人機(jī)交互的步伐,解決識(shí)別、理解與后端服務(wù)的難題,也鞭笞著我們在人機(jī)交互領(lǐng)域不斷前行,智能人機(jī)交互的未來需要我們共同努力。