智能家居設(shè)備的技術(shù)應(yīng)用,人機(jī)交互方面,語(yǔ)音識(shí)別是非常重要的技術(shù)。當(dāng)前,出于市場(chǎng)需求,語(yǔ)音識(shí)別在智能家居中作為一個(gè)技術(shù)補(bǔ)充,正在提升用戶(hù)體驗(yàn)發(fā)揮著重要的作用。以智能音箱為例,為了更好的進(jìn)行定位、捕捉聲音、以及降低無(wú)關(guān)噪音的影響,開(kāi)發(fā)者們會(huì)采用多麥克風(fēng)的形式,不過(guò),一旦處于人聲鼎沸的環(huán)境之中,智能音響的語(yǔ)音識(shí)別系統(tǒng)極有可能“罷工”,因?yàn)樗茈y從眾多聲音中準(zhǔn)確的識(shí)別出下命令的用戶(hù)。在智能家居之中,大多家庭往往只買(mǎi)一個(gè)智能音箱。
打個(gè)比方,當(dāng)語(yǔ)音識(shí)別技術(shù)發(fā)展較為成熟之時(shí),若一位家庭成員呼喚音箱打開(kāi)自己房間的燈,語(yǔ)音控制系統(tǒng)就能通過(guò)聲紋識(shí)別技術(shù)確認(rèn)說(shuō)話(huà)人的身份,從而準(zhǔn)確的打開(kāi)說(shuō)話(huà)人房間的燈。由此,在體驗(yàn)上,不管是從眾多人聲中準(zhǔn)確辨認(rèn)用戶(hù),還是確認(rèn)說(shuō)話(huà)人的身份,聲紋識(shí)別都能讓用戶(hù)體驗(yàn)進(jìn)一步的提升。
搭載聲紋識(shí)別,提高家庭安全指數(shù)。由于不能確認(rèn)說(shuō)話(huà)人的身份,只要條件允許,當(dāng)非用戶(hù)下達(dá)命令之時(shí),語(yǔ)音控制系統(tǒng)極有可能會(huì)執(zhí)行。舉個(gè)例子,有人非法入侵住宅,若語(yǔ)音控制系統(tǒng)不限制說(shuō)話(huà)人的身份,縱然有著智能監(jiān)控系統(tǒng),闖入者完全可以直接下命令關(guān)閉監(jiān)控系統(tǒng),如此一來(lái),闖入者就成功的得到了住宅的臨時(shí)控制權(quán)。當(dāng)搭載聲紋識(shí)別技術(shù),基于聲紋的獨(dú)特性,再不能識(shí)別出闖入者身份的前提下,語(yǔ)音控制系統(tǒng)就能接著進(jìn)行報(bào)警等一系列安防措施。
聲紋識(shí)別技術(shù)存在的“困擾”
在智能家居領(lǐng)域,語(yǔ)言識(shí)別已經(jīng)充分的體現(xiàn)了自己的價(jià)值,緊接著,隨著語(yǔ)音識(shí)別熱潮的過(guò)去,聲紋識(shí)別又成為了新的熱門(mén),被稱(chēng)為智能家居未來(lái)發(fā)展的關(guān)鍵,或是語(yǔ)音交互的下一個(gè)風(fēng)口。且不論它在智能家居領(lǐng)域的未來(lái)發(fā)展如何,就目前而言,其想在智能家居領(lǐng)域真正落地,還需解決一些困擾。
首先是聲紋的采集和特征的建立。不管是人工識(shí)別,還是依靠深度學(xué)習(xí)算法進(jìn)行自動(dòng)化識(shí)別,聲紋庫(kù)的建立都是進(jìn)行一切行動(dòng)的前提。當(dāng)前,公安的聲紋鑒別庫(kù)應(yīng)該是最全的,不過(guò),企業(yè)要想研究聲紋識(shí)別,從公安處入手顯然行不通,因而,聲紋庫(kù)的建立就依賴(lài)于企業(yè)自行收集,這是一件相當(dāng)艱難的任務(wù)。不同于人類(lèi)的雙耳,機(jī)器的識(shí)別都是在數(shù)以百萬(wàn)、千萬(wàn)計(jì)的數(shù)據(jù)訓(xùn)練中不斷改善的,可以說(shuō),如果沒(méi)有足夠的數(shù)據(jù)支持,就沒(méi)有如今的語(yǔ)音識(shí)別等人工智能技術(shù)的突破。對(duì)于企業(yè)而言,想要訓(xùn)練聲紋識(shí)別算法,他們所需的不僅僅是語(yǔ)音數(shù)據(jù),還需要特征多樣化的語(yǔ)音數(shù)據(jù),像方言、口音等等,如此才能全方面的對(duì)聲紋識(shí)別算法進(jìn)行訓(xùn)練。
除了聲紋的采集,聲紋特征的建立也是當(dāng)前聲紋識(shí)別進(jìn)展的一個(gè)難題。理論上來(lái)講,聲紋就像指紋一樣,很少會(huì)有兩個(gè)人具有相同的聲紋特征。雖說(shuō)如此,但正如雙胞胎一般,有些聲紋極其相似,可能只存在一丟丟的差異,這時(shí),找出特征就成了一件相當(dāng)具有難度的事。當(dāng)然,你或許會(huì)說(shuō)這部分可以由計(jì)算機(jī)完成,的確,依計(jì)算機(jī)的運(yùn)算速度,該工作的完成還是相當(dāng)不費(fèi)吹灰之力的。不過(guò),在特征建立工作中,這里又再次回到了上一個(gè)話(huà)題,沒(méi)有充足的聲紋庫(kù),又如何建立足夠的聲紋特征?
其次,除了聲紋的采集和特征的建立,如何準(zhǔn)確識(shí)別說(shuō)話(huà)人也是當(dāng)前一個(gè)急需解決的問(wèn)題。不僅僅是靜態(tài)檢測(cè),現(xiàn)在的聲紋識(shí)別更多的是被要求進(jìn)行實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè),因而,說(shuō)話(huà)環(huán)境、說(shuō)話(huà)人身體狀況、情緒變化等都能對(duì)聲紋識(shí)別的結(jié)果造成影響。以說(shuō)話(huà)人本身的狀況為例,用iPhone7上Siri的聲紋識(shí)別做實(shí)驗(yàn),在提前保存聲紋數(shù)據(jù)的基礎(chǔ)上,鎂客君的小伙伴分別以正常、加粗、尖細(xì)的聲音喚醒Siri,結(jié)果證明,只有正常的語(yǔ)音狀態(tài)下,Siri才能被喚醒,其他則是毫無(wú)反應(yīng)。對(duì)照該結(jié)果,我們可以總結(jié),只要說(shuō)話(huà)人的聲音出現(xiàn)狀況,比如沙啞、情緒化等等,聲紋識(shí)別系統(tǒng)就不能將之與庫(kù)中的聲紋對(duì)上號(hào),從而不能確認(rèn)說(shuō)話(huà)人的身份。