a&s專業(yè)的自動化&安全生態(tài)服務(wù)平臺

公眾號

安全自動化

安防知識網(wǎng)

手機(jī)站

大安防供需平臺

搜索
登錄
|
注冊

搜索

全站搜索
AI應(yīng)用搜索

首頁 > 資訊 > 正文

【門禁】門禁系統(tǒng)中語音識別技術(shù)的特性及優(yōu)點(diǎn)介紹

2013-06-27 15:01 閱讀 1932 來源：慧聰智能社區(qū)網(wǎng) 評論區(qū)

語音識別技術(shù)所涉及的領(lǐng)域包括：信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。語音識別技術(shù)原理借助“支持向量機(jī)(SVM)”和“核學(xué)習(xí)”理論，建立了一種全新而高效的模式識別技術(shù)。

　　語音識別技術(shù)所涉及的領(lǐng)域包括：信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。語音識別技術(shù)原理借助“支持向量機(jī)(SVM)”和“核學(xué)習(xí)”理論，建立了一種全新而高效的模式識別技術(shù)。

　　這種新穎的模式識別技術(shù)具有以下特性和優(yōu)點(diǎn)：

　　1.核心算法具有堅(jiān)實(shí)的理論基礎(chǔ)和幾何上的可解釋性;

　　2.算法用核函數(shù)替換內(nèi)積從而使線性算法變成非線性，這樣通過把數(shù)據(jù)映射到高維特征空間來增加傳統(tǒng)的線性學(xué)習(xí)器的計(jì)算能力;

　　3.算法最終將轉(zhuǎn)化成為一個(gè)二次型尋優(yōu)問題，從理論上說，得到的將是全局最優(yōu)點(diǎn)，解決了傳統(tǒng)方法中出現(xiàn)的局部極值問題;

　　4.適合小樣本訓(xùn)練;

　　5.建立在簡單、簡潔的計(jì)算基礎(chǔ)之上，不僅速度快，也非常適合硬件實(shí)現(xiàn)。

　　特征提取：

　　語音特征的提取是在語音信號中提取出影響語音識別的重要信息，提取方法是否有效是聲紋識別成敗的關(guān)鍵。

　　本項(xiàng)目突破傳統(tǒng)方法，嘗試研究新型的語音特征提取技術(shù)，使其既符合人的聽覺特性，而且在有信道噪聲和頻譜失真的情況下具有較好的穩(wěn)健性，具體方法如下：

　　1.基于微分的特征，微分作用是反映語音信號特征的變化率，具有預(yù)見性，能預(yù)見特征變化的趨勢，以微分特征作訓(xùn)練識別可以改善識別系統(tǒng)的動態(tài)性能。

　　對單幀倒譜特征進(jìn)行微分變換，方法是：

　　2.離散余弦變換(DCT變換)的特征

　　將DCT特征樣本和已存在的所有用戶的DCT模板比對，即計(jì)算特征樣本和各DCT模板之間的絕對值距離(各個(gè)對應(yīng)特征數(shù)據(jù)之差的絕對值之和)，篩選出距離最小的前N個(gè)用戶，即DCT預(yù)選，它能很好的提高識別效率。

　　根據(jù)輸入的語音，輸出語音的幅度累加和特征、語音的過零率特征、語音的MFCC的2階特征，由“語音的幅度累加和特征”和“語音的1階、2階特征”按照幅度權(quán)重、倒譜權(quán)重系數(shù)，進(jìn)行相加或相減，得到4組特征數(shù)據(jù)(波形劃分特征)，依次把“波形劃分特征”和“語音的過零率特征”輸入到一個(gè)容器中，輸入4組峰位劃分信息，把這4組峰位劃分信息進(jìn)行合并，然后按照峰位的最小間距信息去除分布過密的峰位，最后得到一組準(zhǔn)確的峰位信息。

　　根據(jù)輸入的語音，輸出對應(yīng)的MFCC特征(1-12階)。

　　4.大幀特征

　　根據(jù)峰位查找中得到的“峰位信息”和“MFCC特征”，輸出每個(gè)峰位的對應(yīng)大幀特征，每個(gè)大幀覆蓋10個(gè)小幀的區(qū)域，在大幀的定位過程中使用了幅度累加和法，所謂的幅度累加和法就是：設(shè)當(dāng)前位置為i，使用一個(gè)10個(gè)小幀大小的窗口從i-9到i滑動，求出這之間的窗口區(qū)域的最大幅度和，然后把這個(gè)窗口的起始位置作為大幀的起始位置，從大幀的起始位置開始的10個(gè)小幀特征，作為當(dāng)前峰位的大幀特征，并且只使用其中的奇數(shù)小幀。

　　5.隨機(jī)倒譜特征

　　語氣、語速多變將導(dǎo)致發(fā)音特征發(fā)生變化，使識別正確率降低。如果在特征提取時(shí)動態(tài)地選取不同時(shí)間維度的特征塊進(jìn)行訓(xùn)練，將很好地改善因說話的隨意性、語速的多變性等造成的識別不穩(wěn)定性。

　　本項(xiàng)目采用隨機(jī)倒譜特征的方法解決這個(gè)問題，該方法將單純的倒譜特征轉(zhuǎn)換為帶有時(shí)間維的多維隨機(jī)倒譜特征，在通過網(wǎng)絡(luò)模型不斷學(xué)習(xí)過程中，將語音特征逐漸歸納、聚類到穩(wěn)定的激勵(lì)模式，實(shí)現(xiàn)對原始的微觀特征集合的歸納和抽象，從而提高識別的抗畸變性和魯棒性。

　　6.基于人類聽覺結(jié)構(gòu)特征的提取方法

　　用伽瑪聽覺過濾器組(一組不規(guī)則的帶通濾波器)模仿人聽覺的頻率分辨能力。另一種方法是基于小波的提取方法。小波理論是采取多分辨率分析的思想，非均勻地劃分時(shí)頻空間，建立聽覺濾波器組，該方法為非平穩(wěn)信號的分析提供了新的途徑。

　　7.基于發(fā)音特征的提取方法

　　國際音標(biāo)組織(InternationalPhoneticsAssociation,IPA)用發(fā)音位置和發(fā)音模式等發(fā)音特征(ArticulatoryFeature，AF)來對語言的發(fā)音分類。利用發(fā)音特征可以降低誤識率、彌補(bǔ)語言間的變化。

　　8.多特征融合的提取方法

　　采用線性判決分析技術(shù)(LinearDiscriminantAnalysis，LDA)、主成份分析(PrincipleComponentAnalysis,PCA)、最小分類錯(cuò)誤(MinimumClassificationError，MCE)等判決分析方法對高維語音特征進(jìn)行相關(guān)性分析和優(yōu)化分析，以達(dá)到多種特征的融合和特征降維等目的。

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實(shí)后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟(jì)賠償！敬請諒解！

您可能也喜歡這些文章

參與評論

回復(fù)：

0/300

文明上網(wǎng)理性發(fā)言，評論區(qū)僅供其表達(dá)個(gè)人看法，并不表明a&s觀點(diǎn)。

0

推薦專題

熱門排行

關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團(tuán)旗下的專業(yè)媒體平臺，自1994年品牌成立以來，一直專注于安全&自動化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場趨勢的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化，a&s傳媒擁有首屈一指的國際行業(yè)展覽會資源以及豐富的媒體經(jīng)驗(yàn)，提供媒體、活動、展會等整合營銷服務(wù)。

全球網(wǎng)站
法蘭克福
asmag.com
asmag.com.cn
中國臺灣智慧安防網(wǎng)

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實(shí)后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟(jì)賠償！敬請諒解！

粵公網(wǎng)安備 44030402000264號

用戶
反饋

中文字幕日韩一区二区不卡,亚洲av永久无码精品天堂动漫,亚洲av无码国产精品麻豆天美,最新版天堂中文在线,中文字幕视频在线看

【門禁】門禁系統(tǒng)中語音識別技術(shù)的特性及優(yōu)點(diǎn)介紹