中文字幕日韩一区二区不卡,亚洲av永久无码精品天堂动漫,亚洲av无码国产精品麻豆天美,最新版天堂中文在线,中文字幕视频在线看

a&s專業(yè)的自動(dòng)化&安全生態(tài)服務(wù)平臺(tái)
公眾號(hào)
安全自動(dòng)化

安全自動(dòng)化

安防知識(shí)網(wǎng)

安防知識(shí)網(wǎng)

手機(jī)站
手機(jī)站

手機(jī)站

大安防供需平臺(tái)
大安防供需平臺(tái)

大安防供需平臺(tái)

資訊頻道橫幅A1
首頁(yè) > 資訊 > 正文

關(guān)鍵詞識(shí)別技術(shù)及瑞士聯(lián)邦理工學(xué)院的關(guān)鍵詞識(shí)別系統(tǒng)

  本文對(duì)關(guān)鍵詞識(shí)別技術(shù)的研究?jī)?nèi)容、主要模塊、評(píng)價(jià)指標(biāo)和應(yīng)用范圍等進(jìn)行了簡(jiǎn)要介紹,提出了一種自然語(yǔ)音關(guān)鍵詞識(shí)別系統(tǒng)。首先通過(guò)用戶提供的一系列聲學(xué)樣本來(lái)對(duì)關(guān)鍵詞進(jìn)行預(yù)定義,然后通過(guò)關(guān)鍵詞搜索和關(guān)鍵詞確認(rèn)來(lái)實(shí)現(xiàn)關(guān)鍵詞識(shí)別。為了解決在關(guān)鍵詞模型和填料模型中都使用相同的音素模型這一問(wèn)題,我們把填料模型中那些與關(guān)鍵詞模型中的音素模型相同的音素模型去除掉。為了減少在關(guān)鍵詞搜索中的虛警數(shù),我們提出了兩種方法:基于動(dòng)態(tài)時(shí)間規(guī)整的模板匹配方法和高斯混合模型。關(guān)鍵詞識(shí)別實(shí)驗(yàn)結(jié)果表明
資訊頻道文章B

文/鐘鑫 公安部第一研究所 責(zé)任編輯/付留芳

  本文對(duì)關(guān)鍵詞識(shí)別技術(shù)的研究?jī)?nèi)容、主要模塊、評(píng)價(jià)指標(biāo)和應(yīng)用范圍等進(jìn)行了簡(jiǎn)要介紹,提出了一種自然語(yǔ)音關(guān)鍵詞識(shí)別系統(tǒng)。首先通過(guò)用戶提供的一系列聲學(xué)樣本來(lái)對(duì)關(guān)鍵詞進(jìn)行預(yù)定義,然后通過(guò)關(guān)鍵詞搜索和關(guān)鍵詞確認(rèn)來(lái)實(shí)現(xiàn)關(guān)鍵詞識(shí)別。為了解決在關(guān)鍵詞模型和填料模型中都使用相同的音素模型這一問(wèn)題,我們把填料模型中那些與關(guān)鍵詞模型中的音素模型相同的音素模型去除掉。為了減少在關(guān)鍵詞搜索中的虛警數(shù),我們提出了兩種方法:基于動(dòng)態(tài)時(shí)間規(guī)整的模板匹配方法和高斯混合模型。關(guān)鍵詞識(shí)別實(shí)驗(yàn)結(jié)果表明:與基準(zhǔn)模型相比,本方法能夠達(dá)到更高的正確識(shí)別率,從而證明了該方法的有效性。

  關(guān)鍵詞識(shí)別技術(shù)介紹

  概述

  近年來(lái),隨著聲學(xué)模型、語(yǔ)言模型和搜索算法的不斷改進(jìn),語(yǔ)音識(shí)別系統(tǒng)的性能得到了極大的提高。但是要真正完成一個(gè)能夠處理自然語(yǔ)音同時(shí)又不受領(lǐng)域限制的語(yǔ)音識(shí)別系統(tǒng),就現(xiàn)有的技術(shù)水平而言還是非常困難的。關(guān)鍵詞識(shí)別(Keyword Spotting, KWS)技術(shù)是從連續(xù)的、無(wú)限制的自然語(yǔ)音流中識(shí)別出一組給定詞的語(yǔ)音,降低了對(duì)識(shí)別系統(tǒng)的要求,由于用戶對(duì)關(guān)鍵部分的發(fā)音通常都是完整的和吐字清楚的,對(duì)非關(guān)鍵詞部分和語(yǔ)法不需要過(guò)多的要求,因此從語(yǔ)音流中識(shí)別關(guān)鍵詞比識(shí)別整個(gè)句子的發(fā)音要容易得多。所以,關(guān)鍵詞識(shí)別技術(shù)被看作是處理口語(yǔ),跨越人機(jī)交流障礙的最有效解決方案之一,在近年來(lái)取得了長(zhǎng)足的進(jìn)步。

  國(guó)內(nèi)外研究現(xiàn)狀

  國(guó)外關(guān)鍵詞識(shí)別的研究始于上世紀(jì)70年代。1973年,Bridle揭開(kāi)了關(guān)鍵詞識(shí)別研究的序幕,但真正的關(guān)鍵詞識(shí)別研究應(yīng)該說(shuō)是在80年代。美國(guó)國(guó)際電話電報(bào)公司國(guó)防通訊部用模板連接的方法實(shí)現(xiàn)了關(guān)鍵詞識(shí)別,并提出了補(bǔ)白模板。此后,AT&T的BELL實(shí)驗(yàn)室實(shí)現(xiàn)了基于隱馬爾科夫模型的5個(gè)電話用語(yǔ)的、可以實(shí)用的關(guān)鍵詞識(shí)別,這些成果標(biāo)志著關(guān)鍵詞識(shí)別研究的崛起。到90年代以后,MIT的Lincoln實(shí)驗(yàn)室、CMU的計(jì)算機(jī)科學(xué)學(xué)院、Dragon系統(tǒng)公司、東芝公司和IBM公司等也相繼報(bào)告了他們的研究成果。

  我國(guó)關(guān)鍵詞技術(shù)發(fā)展相對(duì)來(lái)說(shuō)起步較晚,但發(fā)展較快。國(guó)內(nèi)的一批科研單位,如中科院自動(dòng)化所、中科院聲學(xué)所、清華大學(xué)、哈工大以及北京大學(xué)等都進(jìn)行了這方面的研究,取得了許多研究成果。正是由于國(guó)內(nèi)對(duì)該領(lǐng)域研究的重視,目前我國(guó)關(guān)鍵詞識(shí)別技術(shù)的研究水平己經(jīng)接近國(guó)外領(lǐng)先水平。但是我們應(yīng)該看到,盡管?chē)?guó)內(nèi)的關(guān)鍵詞技術(shù)取得了很大進(jìn)展,但是對(duì)于復(fù)雜環(huán)境的音頻文檔內(nèi)容檢測(cè)方面,許多技術(shù)尚處于探索階段。

  基本模塊

  如圖1所示。

  1、特征提取;

  2、建立聲學(xué)模型并進(jìn)行訓(xùn)練;

  3、搜索和識(shí)別;

  4、對(duì)識(shí)別結(jié)果進(jìn)行后期處理;

  5、結(jié)合語(yǔ)言模型來(lái)提高系統(tǒng)性能。

  主要評(píng)價(jià)指標(biāo)

  關(guān)鍵詞識(shí)別系統(tǒng)從理論上來(lái)說(shuō)存在兩類(lèi)錯(cuò)誤:

  •類(lèi)型1錯(cuò)誤:錯(cuò)誤拒絕(False Rejection),也稱漏報(bào)(Miss),即系統(tǒng)沒(méi)有識(shí)別出語(yǔ)音中應(yīng)該出現(xiàn)的關(guān)鍵詞;

  •類(lèi)型2錯(cuò)誤:錯(cuò)誤接受(False Alarm),也稱虛警,即系統(tǒng)識(shí)別出的關(guān)鍵詞在語(yǔ)音中沒(méi)有出現(xiàn),是假冒的關(guān)鍵詞。

  關(guān)鍵詞識(shí)別系統(tǒng)中的詞分為詞表內(nèi)詞(In Vocabulary)和詞表外詞(Out Of Vocabulary)。詞表內(nèi)詞是指關(guān)鍵詞表內(nèi)的關(guān)鍵詞;而詞表外詞是關(guān)鍵詞表以外的詞,即非關(guān)鍵詞。當(dāng)系統(tǒng)識(shí)別到一個(gè)關(guān)鍵詞,稱此關(guān)鍵詞為一個(gè)假想命中(Putative Hit)。

  衡量關(guān)鍵詞識(shí)別系統(tǒng)性能的指標(biāo)在表現(xiàn)形式上有不同,但實(shí)質(zhì)是一樣的,都是圍繞著正確識(shí)別與否這個(gè)評(píng)價(jià)準(zhǔn)則來(lái)進(jìn)行計(jì)算。


圖2  關(guān)鍵詞識(shí)別系統(tǒng)

  •識(shí)別率(Detection Rate),又稱正確識(shí)別率(Accuracy Rate)、召回率(Callback Rate),它定義為系統(tǒng)正確識(shí)別到的關(guān)鍵詞數(shù)量與原始語(yǔ)音中實(shí)際出現(xiàn)的關(guān)鍵詞總數(shù)的百分比;

  •漏報(bào)率(Miss Rate),定義為1-識(shí)別率;

  •虛警率(False Alarm Rate),又叫誤警率,為每小時(shí)每個(gè)關(guān)鍵詞的虛警數(shù),簡(jiǎn)記為FA/KW/HR;

  •錯(cuò)誤接受率(False Acceptance Rate),系統(tǒng)錯(cuò)誤識(shí)別到的關(guān)鍵詞數(shù)量與原始語(yǔ)音中實(shí)際出現(xiàn)的關(guān)鍵詞總數(shù)的百分比;

  •查準(zhǔn)率(Precision):對(duì)某一個(gè)查詢關(guān)鍵詞,識(shí)別出的正確關(guān)鍵詞個(gè)數(shù)占識(shí)別出的關(guān)鍵詞總數(shù)的比值。

  顯然,漏報(bào)減少就會(huì)導(dǎo)致虛警增加,反之亦然。在關(guān)鍵詞識(shí)別系統(tǒng)中,一般都是盡可能多地搜索出關(guān)鍵詞候選,然后通過(guò)置信度打分進(jìn)行關(guān)鍵詞確認(rèn),高于置信度門(mén)限的候選接受,低于門(mén)限的拒絕。因此關(guān)鍵詞識(shí)別系統(tǒng)的性能除了取決于關(guān)鍵詞搜索模塊外,也嚴(yán)重依賴于置信度的評(píng)估方法。系統(tǒng)往往調(diào)整置信度門(mén)限,使關(guān)鍵詞識(shí)別系統(tǒng)的兩類(lèi)錯(cuò)誤之間有一個(gè)折衷,這個(gè)門(mén)限稱為系統(tǒng)的工作點(diǎn)。

  由于在不同的虛警率下,關(guān)鍵詞的識(shí)別率會(huì)不同,所以單看在某一虛警率下的識(shí)別率無(wú)法客觀衡量系統(tǒng)性能的好壞。目前常用的衡量方法是接收機(jī)工作特性曲線(Receiver Operating Characteristics Curve),記作ROC曲線,它描述了識(shí)別率和虛警率之間的關(guān)系。ROC曲線能夠全面、直觀地反應(yīng)關(guān)鍵詞識(shí)別系統(tǒng)的性能,因此成為最常用的性能評(píng)價(jià)指標(biāo)。

  在實(shí)際系統(tǒng)中,曲線在虛警率小于10的部分對(duì)于衡量系統(tǒng)性能才有意義。因?yàn)閷?shí)際使用中,很少選擇虛警率大于10的點(diǎn)為工作點(diǎn),品質(zhì)因數(shù)(Figure Of Merit)定義為虛警率在0-10FA/KW/HR范圍內(nèi)的關(guān)鍵詞平均識(shí)別率。

  應(yīng)用范圍

  語(yǔ)音庫(kù)搜索:如對(duì)公安局的監(jiān)聽(tīng)記錄、法院的庭審記錄、通信運(yùn)營(yíng)商的通訊內(nèi)容等進(jìn)行有目的的搜索。

  文本分類(lèi):從海量的語(yǔ)音郵件中挑選出自己感興趣的內(nèi)容。

  語(yǔ)音監(jiān)聽(tīng):實(shí)時(shí)地從被監(jiān)聽(tīng)的語(yǔ)音數(shù)據(jù)中定位并識(shí)別出那些含有敏感關(guān)鍵詞的語(yǔ)句。

  電話轉(zhuǎn)接:無(wú)需查找被叫用戶號(hào)碼,只需告知被叫的單位或姓名等常用的身份信息,就可以直接轉(zhuǎn)接到被叫人。

  信息查詢:只需從用戶語(yǔ)音中識(shí)別用戶關(guān)注的內(nèi)容,然后查找出用戶所需信息,再播報(bào)給用戶。

  命令控制:如控制機(jī)器人等,一般是讓關(guān)鍵詞識(shí)別系統(tǒng)在后臺(tái)持續(xù)運(yùn)行,通過(guò)語(yǔ)音指令實(shí)現(xiàn)一些類(lèi)似于開(kāi)燈、關(guān)燈等簡(jiǎn)單的命令控制功能。

  密碼驗(yàn)證:可將密碼語(yǔ)音的鑒別和說(shuō)話人鑒別組合在一起,讓語(yǔ)音關(guān)鍵詞也成為聲紋鎖的一部分,來(lái)提高聲紋鎖的穩(wěn)健性。

  口語(yǔ)對(duì)話系統(tǒng):由于具有很多可應(yīng)用于實(shí)際系統(tǒng)的優(yōu)點(diǎn),因此關(guān)鍵詞識(shí)別技術(shù)更適用于實(shí)現(xiàn)口語(yǔ)對(duì)話系統(tǒng)。

  瑞士聯(lián)邦理工學(xué)院的自然語(yǔ)音關(guān)鍵詞識(shí)別系統(tǒng)

  介紹

  在過(guò)去的20年里,語(yǔ)音信息搜索受到了極大的關(guān)注。關(guān)鍵詞識(shí)別是連續(xù)語(yǔ)音識(shí)別中的一個(gè)特殊分支,它已經(jīng)廣泛應(yīng)用于電話語(yǔ)音數(shù)據(jù)、航空旅行信息和新聞廣播等多個(gè)方面。然而,目前這些先進(jìn)的關(guān)鍵詞識(shí)別系統(tǒng)都面臨一個(gè)共同問(wèn)題,那就是在許多應(yīng)用場(chǎng)合中,相關(guān)的關(guān)鍵詞并不在詞庫(kù)中,在搜尋人名、地名和縮寫(xiě)詞的時(shí)候,這個(gè)問(wèn)題就尤為突出。而另一方面,在某些情況下,關(guān)鍵詞完全是由用戶提供的一系列聲學(xué)樣本來(lái)預(yù)定義的,那么,關(guān)鍵詞識(shí)別任務(wù)就轉(zhuǎn)化為對(duì)這些預(yù)定義的關(guān)鍵詞進(jìn)行識(shí)別,并且尋找到該關(guān)鍵詞在測(cè)試語(yǔ)音中的位置。

  本文提出了我們?cè)陉P(guān)鍵詞識(shí)別這個(gè)領(lǐng)域所進(jìn)行的研究。我們相信:一個(gè)有效的關(guān)鍵詞識(shí)別系統(tǒng)必須能夠在第一時(shí)間識(shí)別出嵌入在一段語(yǔ)音中的關(guān)鍵詞,隨后能夠?qū)Σ话行шP(guān)鍵詞的語(yǔ)音區(qū)域進(jìn)行拒識(shí)。所提出的關(guān)鍵詞識(shí)別系統(tǒng)如圖2所示:首先,在預(yù)處理階段提取特征參數(shù);其次,通過(guò)將一系列音素模型作為填料模型,使用維特比(Viterbi)流搜索來(lái)完成關(guān)鍵詞搜索;最后,通過(guò)一系列由用戶提供的聲學(xué)樣本來(lái)建立關(guān)鍵詞模型,并用這個(gè)模型對(duì)關(guān)鍵詞候選(或稱關(guān)鍵詞假設(shè))進(jìn)行確認(rèn)。

  關(guān)鍵詞搜索的方法之一是根據(jù)先驗(yàn)知識(shí)引入有限狀態(tài)文法(FSG),從而在一個(gè)整句中檢測(cè)是否有關(guān)鍵詞的存在。通過(guò)向給定的FSG中加入某種語(yǔ)音結(jié)構(gòu),我們可以獲得優(yōu)異的檢測(cè)性能。然而,F(xiàn)SG的局限性在于它不能覆蓋所有可能的語(yǔ)音結(jié)構(gòu),因此,實(shí)際的關(guān)鍵詞識(shí)別系統(tǒng)的魯棒性很差。另一種方法是讓填料模型(也稱垃圾模型)來(lái)“吸收”非關(guān)鍵詞,已經(jīng)證明這種方法在關(guān)鍵詞識(shí)別的應(yīng)用中具有很高的效率,因此本文就采用這種方法。“吸收”非關(guān)鍵詞有三種方法:1、將所有語(yǔ)音區(qū)域聯(lián)合起來(lái),用來(lái)訓(xùn)練一個(gè)隱馬爾科夫模型(HMM),并將其作為一個(gè)填料模型;2、基于大詞匯量連續(xù)語(yǔ)音識(shí)別(LVCSR)的方法,其中垃圾模型只允許有來(lái)自于詞匯庫(kù)的有效詞;3、集合所有音素模型,用來(lái)建立填料模型。第一種方法的工作效果不好,因?yàn)樗⒌奶盍夏P筒荒芎w測(cè)試語(yǔ)音中的所有變化。第二種方法由于使用了額外的語(yǔ)言學(xué)限制條件,雖然提高了識(shí)別性能,但是它需要采集大量的標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練LVCSR系統(tǒng),因此計(jì)算成本很高。第三種方法能自動(dòng)適應(yīng)測(cè)試語(yǔ)音中的突發(fā)語(yǔ)音,并且具有相對(duì)較低的計(jì)算成本。本文采用第三種方法。

  然而,基于音素的有填料模型的關(guān)鍵詞識(shí)別系統(tǒng)還有一個(gè)缺點(diǎn),那就是由于在關(guān)鍵詞模型和填料模型中使用了相同的音素模型,因此可能會(huì)導(dǎo)致對(duì)一個(gè)關(guān)鍵詞進(jìn)行識(shí)別的性能出現(xiàn)下降的現(xiàn)象。這個(gè)問(wèn)題一般是通過(guò)應(yīng)用更加精煉的垃圾模型或者在線垃圾模型來(lái)解決。我們?cè)诒疚闹刑岢隽硪环N方法,即在解碼網(wǎng)絡(luò)中,把填料模型中那些與關(guān)鍵詞模型中的音素模型相同的音素模型去除掉。實(shí)驗(yàn)結(jié)果表明:這樣簡(jiǎn)單的一個(gè)方法可以很明顯的提高關(guān)鍵詞識(shí)別率。

  把填料模型中那些與關(guān)鍵詞模型中的音素模型相同的音素模型去除掉之后,虛警率可能會(huì)提高。為了減少由于關(guān)鍵詞搜索而導(dǎo)致的虛警,我們提出了兩種關(guān)鍵詞確認(rèn)方法。一種是基于動(dòng)態(tài)時(shí)間規(guī)整(DTW)的模板匹配方法,它能使孤立詞識(shí)別系統(tǒng)展示出優(yōu)異的性能。另一種方法基于高斯混合模型,這個(gè)模型已經(jīng)成功的用來(lái)處理說(shuō)話人確認(rèn)和說(shuō)話人識(shí)別等問(wèn)題。我們的研究表明,這兩種方法能在降低虛警率的同時(shí)可以保持識(shí)別率幾乎完好無(wú)損。

  實(shí)驗(yàn)設(shè)置

  本實(shí)驗(yàn)中所采用的識(shí)別器是一個(gè)與說(shuō)話人無(wú)關(guān)的HMM系統(tǒng)。我們將音素作為建模單元,其中每一個(gè)音素可以由一個(gè)3狀態(tài),嚴(yán)格自左向右的連續(xù)密度HMM來(lái)表示,那么一個(gè)單詞就可以由一系列音素模型的組合來(lái)表示。每種狀態(tài)下的概率密度函數(shù)的個(gè)數(shù)在訓(xùn)練的過(guò)程中確定。我們使用來(lái)自于會(huì)談電話語(yǔ)音(CTS)的長(zhǎng)達(dá)15小時(shí)的語(yǔ)音數(shù)據(jù)來(lái)訓(xùn)練音素級(jí)的HMM。對(duì)于所有語(yǔ)音數(shù)據(jù),我們使用8kHz的采樣率和16位采樣量化位數(shù),采樣精度為16位,對(duì)采集到的信號(hào)以25ms為幀長(zhǎng)進(jìn)行分幀,幀移長(zhǎng)度為10ms,預(yù)加重系數(shù)為0.97,加漢明窗。然后,采用24通道的分析,使用離散余弦變換(DCT)轉(zhuǎn)換為12維 mel頻率倒譜系數(shù)(MFCC)。最后,我們用倒譜均值減(CMS)來(lái)進(jìn)行信道補(bǔ)償。因此,12維CMS歸一化MFCC加上相應(yīng)的一階、二階系數(shù)的對(duì)數(shù)能量就共同形成了特征向量。在本文中,我們使用HMM工具箱(HTK)進(jìn)行聲音處理、特征提取、聲音建模和解碼等。

  我們?cè)谵k公室環(huán)境下記錄了5個(gè)說(shuō)話人的自然語(yǔ)音周期(有2位女性和3位男性),有5個(gè)關(guān)鍵詞,分別是“藍(lán)”、“紅”、“黃”、“綠”和“球”。關(guān)鍵詞總共出現(xiàn)189次,非關(guān)鍵詞共出現(xiàn)1038次。在每一個(gè)周期,5個(gè)關(guān)鍵詞分別出現(xiàn)10次,作為聲學(xué)樣本。每一個(gè)關(guān)鍵詞的時(shí)間域都用手工標(biāo)注。

  關(guān)鍵詞搜索

  正如第一部分描述那樣,本系統(tǒng)采用基于填料模型的關(guān)鍵詞識(shí)別方法,其流程如圖3所示。


圖3  本系統(tǒng)采用基于填料模型的關(guān)鍵詞識(shí)別方法

  圖3 使用填料模型的關(guān)鍵詞解碼網(wǎng)絡(luò),每個(gè)關(guān)鍵詞模型是一個(gè)自左向右的HMM,它來(lái)自于與關(guān)鍵詞音素序列相對(duì)應(yīng)的一系列音素模型的組合。填料模型由非關(guān)鍵詞的音素模型組成。

  這種方法允許每一個(gè)關(guān)鍵詞在測(cè)試語(yǔ)音中多次出現(xiàn),因?yàn)槊總€(gè)關(guān)鍵詞模型是一個(gè)自左向右的HMM,它來(lái)自于與關(guān)鍵詞音素序列相對(duì)應(yīng)的一系列音素模型的組合。填料模型(非關(guān)鍵詞)也由音素模型(包含靜音模型)組成。音素識(shí)別器通過(guò)維特比(Viterbi)流搜索方法得到識(shí)別結(jié)果,而搜索過(guò)程則是以這個(gè)結(jié)果為基礎(chǔ),也就是說(shuō),來(lái)源于連續(xù)語(yǔ)音流的最佳狀態(tài)序列可以表示為:

  其中,S是候選狀態(tài)序列,O是觀察向量序列,M和G分別表示聲學(xué)模型(HMM)和解碼網(wǎng)絡(luò)。對(duì)于每一幀,可以獲取相應(yīng)的狀態(tài)和對(duì)數(shù)概率。通過(guò)把屬于同一個(gè)音素模型的相鄰幀結(jié)合起來(lái),可以對(duì)一個(gè)音素進(jìn)行識(shí)別,而通過(guò)一系列相應(yīng)的音素模型的組合,可以識(shí)別出關(guān)鍵詞。因此,除了得到似然概率得分之外,每一個(gè)關(guān)鍵詞的起點(diǎn)和終點(diǎn)也能被記錄下來(lái)。

  導(dǎo)致關(guān)鍵詞識(shí)別性能退化的原因之一就是在關(guān)鍵詞模型和填料模型中使用了相同的音素模型。雖然已經(jīng)有其他研究人員著手解決這個(gè)問(wèn)題,但是出于簡(jiǎn)約化和有效性的考慮,我們提出另外一種方法,即把填料模型中那些與關(guān)鍵詞模型中的音素模型相同的音素模型去除掉。本系統(tǒng)的性能還依賴于對(duì)音素HMM進(jìn)行準(zhǔn)確的訓(xùn)練。通過(guò)使用來(lái)自于CTS的長(zhǎng)達(dá)15小時(shí)的語(yǔ)音數(shù)據(jù),我們訓(xùn)練出兩種HMM(性別無(wú)關(guān)和性別相關(guān))。

  圖4展現(xiàn)了在使用不同類(lèi)別的HMM和填料模型時(shí)關(guān)鍵詞識(shí)別的性能(由ROC曲線表征)。GI-HMM和GD-HMM分別代表“性別無(wú)關(guān)HMM”和“性別相關(guān)HMM”,filter1和filter2分別表示“沒(méi)有”和“已經(jīng)”把填料模型中那些與關(guān)鍵詞模型中的音素模型相同的音素模型去除掉。根據(jù)所搜索的關(guān)鍵詞假設(shè)的中間時(shí)間指數(shù)是否在真正的關(guān)鍵詞時(shí)域之內(nèi),分別得到正確識(shí)別和錯(cuò)誤識(shí)別的結(jié)論。不出所料,無(wú)論是否有填料模型,“性別相關(guān)HMM”比“性別無(wú)關(guān)HMM”的識(shí)別性能都略微好一些。在移除音素模型之后,識(shí)別性能表現(xiàn)得到了顯著的提高。而每一個(gè)關(guān)鍵詞的識(shí)別性能有很大的差異,如圖5中的實(shí)線所示。


圖4  使用不同的HMM和填料模型的條件下的ROC曲線

  圖4中GI-HMM和GD-HMM分別代表“性別無(wú)關(guān)HMM”和“性別相關(guān)HMM”。filter1和filter2分別表示“沒(méi)有”和“已經(jīng)”把填料模型中那些與關(guān)鍵詞模型中的音素模型相同的音素模型去除掉。


圖5  每一個(gè)關(guān)鍵詞對(duì)應(yīng)的ROC曲線

  圖5中實(shí)線和虛線分別表示經(jīng)過(guò)基于DTW的確認(rèn)之前(圖4中的GD-HMM-filter2)和基于DTW的確認(rèn)之后的效果

  出現(xiàn)錯(cuò)誤的原因是自然語(yǔ)音數(shù)據(jù)的幾個(gè)特點(diǎn)造成的。第一,訓(xùn)練數(shù)據(jù)(電話語(yǔ)音)和測(cè)試數(shù)據(jù)(由遠(yuǎn)程麥克風(fēng)記錄的語(yǔ)音)之間存在不匹配的問(wèn)題。第二,背景噪音使語(yǔ)音質(zhì)量下降,因而導(dǎo)致識(shí)別錯(cuò)誤。第三,說(shuō)話人的差異(其中3個(gè)是非母語(yǔ)說(shuō)話者)和說(shuō)話風(fēng)格的差異(重音、語(yǔ)速和發(fā)音習(xí)慣等)也可能導(dǎo)致識(shí)別錯(cuò)誤。

  關(guān)鍵詞確認(rèn)

  前面描述的關(guān)鍵詞搜索方法提供了一系列關(guān)鍵詞假設(shè)(分段的語(yǔ)音),每一個(gè)關(guān)鍵詞假設(shè)可以由一個(gè)特征向量(或幀)的序列來(lái)表示,即 
    其中 代表第l幀的CMS歸一化MFCC特征向量。如圖4所示,GD-HMM-filter2的識(shí)別率最高(86.6%),而它付出的代價(jià)就是虛警數(shù)比GD-HMM-filter1的虛警數(shù)更高。關(guān)鍵詞確認(rèn)是關(guān)鍵詞識(shí)別系統(tǒng)中的一個(gè)必要的后期處理過(guò)程,它的目的是為了拒絕錯(cuò)誤的關(guān)鍵詞假設(shè),同時(shí)又盡可能多的接受真正的關(guān)鍵詞。

  基于DTW的關(guān)鍵詞確認(rèn)

 

區(qū)域?qū)⒈唤邮転橐粋€(gè)關(guān)鍵詞。這里我們假定向量序列X是獨(dú)立的而且服從同一分布的隨機(jī)變量。


圖6  經(jīng)過(guò)關(guān)鍵詞確認(rèn)后的ROC曲線,GD-HMM-filter2取自圖4,以

便進(jìn)行比較
 

  實(shí)驗(yàn)結(jié)果

  隨后進(jìn)行關(guān)鍵詞確認(rèn)實(shí)驗(yàn)。我們將GMM的混合數(shù)設(shè)定為4,在實(shí)驗(yàn)中優(yōu)化每一個(gè)關(guān)鍵詞對(duì)應(yīng)的門(mén)限。圖6展示了關(guān)鍵詞識(shí)別的性能??梢钥闯?,兩種關(guān)鍵詞確認(rèn)方法的效果都不錯(cuò),它們都能夠降低錯(cuò)誤接收率,同時(shí)保持正確識(shí)別率幾乎不受損害。另外,在減少虛警數(shù)方面,DTW(能拒識(shí)大約50%的錯(cuò)誤關(guān)鍵詞)的性能優(yōu)于GMM,這是因?yàn)槊總€(gè)關(guān)鍵詞僅僅有10個(gè)樣本可供建模,而基于DTW的模式匹配比GMM所需要的訓(xùn)練樣本要少。與基準(zhǔn)系統(tǒng)(GI-HMM-filter1)比起來(lái),最終的關(guān)鍵詞識(shí)別系統(tǒng)能將絕對(duì)正確識(shí)別率提高10%,同時(shí)大大降低虛警率。圖5中的虛線顯示的是針對(duì)每一個(gè)關(guān)鍵詞而言,使用基于DTW的關(guān)鍵詞確認(rèn)方法時(shí)的關(guān)鍵詞識(shí)別性能表現(xiàn)。可以看出,每一個(gè)關(guān)鍵詞的識(shí)別性能大不相同,但是經(jīng)過(guò)DTW的關(guān)鍵詞確認(rèn)之后,錯(cuò)誤接受率都大大降低,但是需要注意的是,有一些 “紅”和“綠”關(guān)鍵詞經(jīng)過(guò)DTW確認(rèn)之后不能被識(shí)別。

  結(jié)論

  本文提出了自然語(yǔ)音關(guān)鍵詞識(shí)別研究方法,利用一系列聲學(xué)樣本來(lái)對(duì)關(guān)鍵詞進(jìn)行預(yù)定義。我們把填料模型中那些與關(guān)鍵詞模型中的音素模型相同的音素模型去除掉,以此來(lái)解決在填料模型與關(guān)鍵詞模型中使用相同音素模型的問(wèn)題。同時(shí),我們還提出了DTW和GMM來(lái)降低由關(guān)鍵詞搜索步驟引起的虛警率。本關(guān)鍵詞識(shí)別實(shí)驗(yàn)表明:所提出的方法切實(shí)有效,與基準(zhǔn)系統(tǒng)比起來(lái),它可以提高識(shí)別性能。未來(lái)的工作主要在于將說(shuō)話人自適應(yīng)技術(shù)與先進(jìn)的語(yǔ)音處理技術(shù)融合至本系統(tǒng)中,從而進(jìn)一步提高正確識(shí)別率。

參與評(píng)論
回復(fù):
0/300
文明上網(wǎng)理性發(fā)言,評(píng)論區(qū)僅供其表達(dá)個(gè)人看法,并不表明a&s觀點(diǎn)。
0
關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團(tuán)旗下的專業(yè)媒體平臺(tái),自1994年品牌成立以來(lái),一直專注于安全&自動(dòng)化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場(chǎng)趨勢(shì)的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化,a&s傳媒擁有首屈一指的國(guó)際行業(yè)展覽會(huì)資源以及豐富的媒體經(jīng)驗(yàn),提供媒體、活動(dòng)、展會(huì)等整合營(yíng)銷(xiāo)服務(wù)。

免責(zé)聲明:本站所使用的字體和圖片文字等素材部分來(lái)源于互聯(lián)網(wǎng)共享平臺(tái)。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的,皆為無(wú)意。如您是字體廠商、圖片文字廠商等版權(quán)方,且不允許本站使用您的字體和圖片文字等素材,請(qǐng)聯(lián)系我們,本站核實(shí)后將立即刪除!任何版權(quán)方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟(jì)賠償!敬請(qǐng)諒解!
? 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法蘭克福展覽(深圳)有限公司版權(quán)所有 粵ICP備12072668號(hào) 粵公網(wǎng)安備 44030402000264號(hào)
用戶
反饋