語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。語音識別技術(shù)原理借助“支持向量機(jī)(SVM)”和“核學(xué)習(xí)”理論,建立了一種全新而高效的模式識別技術(shù)。
這種新穎的模式識別技術(shù)具有以下特性和優(yōu)點(diǎn):
1.核心算法具有堅(jiān)實(shí)的理論基礎(chǔ)和幾何上的可解釋性;
2.算法用核函數(shù)替換內(nèi)積從而使線性算法變成非線性,這樣通過把數(shù)據(jù)映射到高維特征空間來增加傳統(tǒng)的線性學(xué)習(xí)器的計(jì)算能力;
3.算法最終將轉(zhuǎn)化成為一個(gè)二次型尋優(yōu)問題,從理論上說,得到的將是全局最優(yōu)點(diǎn),解決了傳統(tǒng)方法中出現(xiàn)的局部極值問題;
4.適合小樣本訓(xùn)練;
5.建立在簡單、簡潔的計(jì)算基礎(chǔ)之上,不僅速度快,也非常適合硬件實(shí)現(xiàn)。
特征提取:
語音特征的提取是在語音信號中提取出影響語音識別的重要信息,提取方法是否有效是聲紋識別成敗的關(guān)鍵。
本項(xiàng)目突破傳統(tǒng)方法,嘗試研究新型的語音特征提取技術(shù),使其既符合人的聽覺特性,而且在有信道噪聲和頻譜失真的情況下具有較好的穩(wěn)健性,具體方法如下:
1.基于微分的特征,微分作用是反映語音信號特征的變化率,具有預(yù)見性,能預(yù)見特征變化的趨勢,以微分特征作訓(xùn)練識別可以改善識別系統(tǒng)的動態(tài)性能。
對單幀倒譜特征進(jìn)行微分變換,方法是:
2.離散余弦變換(DCT變換)的特征
將DCT特征樣本和已存在的所有用戶的DCT模板比對,即計(jì)算特征樣本和各DCT模板之間的絕對值距離(各個(gè)對應(yīng)特征數(shù)據(jù)之差的絕對值之和),篩選出距離最小的前N個(gè)用戶,即DCT預(yù)選,它能很好的提高識別效率。
根據(jù)輸入的語音,輸出語音的幅度累加和特征、語音的過零率特征、語音的MFCC的2階特征,由“語音的幅度累加和特征”和“語音的1階、2階特征”按照幅度權(quán)重、倒譜權(quán)重系數(shù),進(jìn)行相加或相減,得到4組特征數(shù)據(jù)(波形劃分特征),依次把“波形劃分特征”和“語音的過零率特征”輸入到一個(gè)容器中,輸入4組峰位劃分信息,把這4組峰位劃分信息進(jìn)行合并,然后按照峰位的最小間距信息去除分布過密的峰位,最后得到一組準(zhǔn)確的峰位信息。
根據(jù)輸入的語音,輸出對應(yīng)的MFCC特征(1-12階)。
4.大幀特征
根據(jù)峰位查找中得到的“峰位信息”和“MFCC特征”,輸出每個(gè)峰位的對應(yīng)大幀特征,每個(gè)大幀覆蓋10個(gè)小幀的區(qū)域,在大幀的定位過程中使用了幅度累加和法,所謂的幅度累加和法就是:設(shè)當(dāng)前位置為i,使用一個(gè)10個(gè)小幀大小的窗口從i-9到i滑動,求出這之間的窗口區(qū)域的最大幅度和,然后把這個(gè)窗口的起始位置作為大幀的起始位置,從大幀的起始位置開始的10個(gè)小幀特征,作為當(dāng)前峰位的大幀特征,并且只使用其中的奇數(shù)小幀。
5.隨機(jī)倒譜特征
語氣、語速多變將導(dǎo)致發(fā)音特征發(fā)生變化,使識別正確率降低。如果在特征提取時(shí)動態(tài)地選取不同時(shí)間維度的特征塊進(jìn)行訓(xùn)練,將很好地改善因說話的隨意性、語速的多變性等造成的識別不穩(wěn)定性。
本項(xiàng)目采用隨機(jī)倒譜特征的方法解決這個(gè)問題,該方法將單純的倒譜特征轉(zhuǎn)換為帶有時(shí)間維的多維隨機(jī)倒譜特征,在通過網(wǎng)絡(luò)模型不斷學(xué)習(xí)過程中,將語音特征逐漸歸納、聚類到穩(wěn)定的激勵(lì)模式,實(shí)現(xiàn)對原始的微觀特征集合的歸納和抽象,從而提高識別的抗畸變性和魯棒性。
6.基于人類聽覺結(jié)構(gòu)特征的提取方法
用伽瑪聽覺過濾器組(一組不規(guī)則的帶通濾波器)模仿人聽覺的頻率分辨能力。另一種方法是基于小波的提取方法。小波理論是采取多分辨率分析的思想,非均勻地劃分時(shí)頻空間,建立聽覺濾波器組,該方法為非平穩(wěn)信號的分析提供了新的途徑。
7.基于發(fā)音特征的提取方法
國際音標(biāo)組織(InternationalPhoneticsAssociation,IPA)用發(fā)音位置和發(fā)音模式等發(fā)音特征(ArticulatoryFeature,AF)來對語言的發(fā)音分類。利用發(fā)音特征可以降低誤識率、彌補(bǔ)語言間的變化。
8.多特征融合的提取方法
采用線性判決分析技術(shù)(LinearDiscriminantAnalysis,LDA)、主成份分析(PrincipleComponentAnalysis,PCA)、最小分類錯(cuò)誤(MinimumClassificationError,MCE)等判決分析方法對高維語音特征進(jìn)行相關(guān)性分析和優(yōu)化分析,以達(dá)到多種特征的融合和特征降維等目的。