中文字幕日韩一区二区不卡,亚洲av永久无码精品天堂动漫,亚洲av无码国产精品麻豆天美,最新版天堂中文在线,中文字幕视频在线看

a&s專業(yè)的自動(dòng)化&安全生態(tài)服務(wù)平臺(tái)
公眾號(hào)
安全自動(dòng)化

安全自動(dòng)化

安防知識(shí)網(wǎng)

安防知識(shí)網(wǎng)

手機(jī)站
手機(jī)站

手機(jī)站

大安防供需平臺(tái)
大安防供需平臺(tái)

大安防供需平臺(tái)

資訊頻道橫幅A1
首頁 > 資訊 > 正文

五大趨勢(shì)總結(jié),帶你看清聲紋識(shí)別技術(shù)研究方向

走出實(shí)驗(yàn)室的聲紋識(shí)別技術(shù)因其廣闊的應(yīng)用場(chǎng)景和價(jià)值,從特定領(lǐng)域到民用領(lǐng)域,在國內(nèi)外正迎來第一波商用化浪潮。 而與此同時(shí),關(guān)于聲紋識(shí)別技術(shù)研究的成熟度以及安全可靠性,一直是應(yīng)用領(lǐng)域討論的重點(diǎn),本文基于時(shí)下聲紋識(shí)別技術(shù)研究的前沿觀點(diǎn),總結(jié)出五大發(fā)展趨勢(shì):
資訊頻道文章B

  走出實(shí)驗(yàn)室的聲紋識(shí)別技術(shù)因其廣闊的應(yīng)用場(chǎng)景和價(jià)值,從特定領(lǐng)域到民用領(lǐng)域,在國內(nèi)外正迎來第一波商用化浪潮。 而與此同時(shí),關(guān)于聲紋識(shí)別技術(shù)研究的成熟度以及安全可靠性,一直是應(yīng)用領(lǐng)域討論的重點(diǎn),本文基于時(shí)下聲紋識(shí)別技術(shù)研究的前沿觀點(diǎn),總結(jié)出五大發(fā)展趨勢(shì):

  1、 聲紋識(shí)別研究朝著深度學(xué)習(xí)和端到端方向發(fā)展

  語音作為語言的聲音表現(xiàn)形式,不僅包含了語言語義信息,同時(shí)也傳達(dá)了說話人語種、性別、年齡、情感、信道、嗓音、病理、生理、心理等多種豐富的副語言語音屬性信息。以上這些語言語音屬性識(shí)別問題從整體來看,其核心都是針對(duì)不定時(shí)長(zhǎng)文本無關(guān)的句子層面語音信號(hào)的有監(jiān)督學(xué)習(xí)問題,只是要識(shí)別的屬性標(biāo)注有不同。

  近年來,聲紋識(shí)別的研究趨勢(shì)正在快速朝著深度學(xué)習(xí)和端到端方向發(fā)展,其中最典型的就是基于句子層面的做法。在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)增強(qiáng)、損失函數(shù)設(shè)計(jì)等方面還有很多工作去做,還有很大的提升空間。

  2、 提升聲紋識(shí)別系統(tǒng)的短時(shí)語音情況

  在實(shí)際應(yīng)用中,由于對(duì)基于語音的訪問控制需求的不斷增長(zhǎng),提升聲紋識(shí)別系統(tǒng)在短時(shí)語音情況下的性能變得尤為迫切。短時(shí)語音中說話人信息不足以及注冊(cè)和測(cè)試語音的文本內(nèi)容不匹配,對(duì)于主流的基于統(tǒng)計(jì)建模的聲紋識(shí)別系統(tǒng)是一個(gè)嚴(yán)峻的挑戰(zhàn)。

  3、 改進(jìn)現(xiàn)有的深度說話人學(xué)習(xí)方法

  目前采用的深度說話人識(shí)別方法首先利用神經(jīng)網(wǎng)絡(luò)提取前端的幀級(jí)特征,然后通過池化映射獲得可以表示說話人特性的段級(jí)向量,最后采用 LDA/PLDA 等后端建模方法進(jìn)行度量計(jì)算。

  相對(duì)于傳統(tǒng)的 i-vector 生成過程,基于深度學(xué)習(xí)的說話人識(shí)別方法優(yōu)勢(shì)主要體現(xiàn)在區(qū)分性訓(xùn)練和利用多層網(wǎng)絡(luò)結(jié)構(gòu)對(duì)局部多幀聲學(xué)特征的有效表示上。如何進(jìn)一步改進(jìn)現(xiàn)有的深度說話人學(xué)習(xí)方法是現(xiàn)階段的一個(gè)研究熱點(diǎn)。

  4、 深度對(duì)抗學(xué)習(xí)在聲紋識(shí)別技術(shù)中的應(yīng)用

  生成式對(duì)抗網(wǎng)絡(luò) (GAN) 的主要目的是用在數(shù)據(jù)生成、降噪、等很多場(chǎng)景里面。它還被用在領(lǐng)域自適應(yīng)里面,形成一個(gè)新的分布。第三個(gè)廣泛的應(yīng)用是生成對(duì)抗樣本,這會(huì)對(duì)分類系統(tǒng)產(chǎn)生大的困擾。很多研究者用對(duì)抗樣本攻擊機(jī)器學(xué)習(xí)的系統(tǒng),在原始數(shù)據(jù)上增加一些擾動(dòng),生成樣本,經(jīng)過神經(jīng)網(wǎng)絡(luò)之后就有可能識(shí)別成完全不同的結(jié)果。這個(gè)思想在圖像處理領(lǐng)域非?;钴S,會(huì)造成錯(cuò)誤識(shí)別,引起了自動(dòng)駕駛,安全等領(lǐng)域的研究人員的廣泛關(guān)注。

  在語音領(lǐng)域,GAN 可以用在語音識(shí)別、口音自適應(yīng)上,通過多任務(wù)學(xué)習(xí)和梯度反轉(zhuǎn)層來進(jìn)行口音或信道的自適應(yīng),然后加上其他方法可以得到較好的效果。聲紋識(shí)別也存在各種不匹配的問題,在聲紋識(shí)別上也可以使用這一思想。同樣的思想也用在了 TTS 語音合成領(lǐng)域,目的是把不同的音素解耦成說話人,風(fēng)格等,去除噪聲對(duì)建模的影響。

  5、 深度嵌入學(xué)習(xí)是進(jìn)行聲紋識(shí)別和反欺騙的一個(gè)重要途徑

  說話人識(shí)別和欺騙檢測(cè)近年來受到學(xué)術(shù)界和業(yè)界的廣泛關(guān)注,人們希望在實(shí)際應(yīng)用中設(shè)計(jì)出高性能的系統(tǒng)?;谏疃葘W(xué)習(xí)的方法在該領(lǐng)域得到了廣泛的應(yīng)用,在說話人識(shí)別和反欺騙方面取得了新的里程碑。然而,在真實(shí)復(fù)雜的場(chǎng)景下,面對(duì)短語音、噪聲的破壞、信道失配、大規(guī)模等困難,開發(fā)一個(gè)魯棒的系統(tǒng)仍然是非常困難的。深度嵌入學(xué)習(xí)是進(jìn)行說話人識(shí)別和反欺騙的一個(gè)重要途徑,在這方面已有一些著名的研究成果。如之前的 d-vector 特征和當(dāng)前普遍使用的 x-vector 特征。

  結(jié)語:

  目前,指紋識(shí)別、人臉識(shí)別已經(jīng)被大眾所熟知,但同樣作為生物識(shí)別的聲紋識(shí)別,還處于技術(shù)挑戰(zhàn)的前沿地帶。據(jù)聲紋識(shí)別企業(yè)快商通分析,當(dāng)下全球生物識(shí)別產(chǎn)業(yè)規(guī)模龐大,僅聲紋識(shí)別這一細(xì)分方向的市場(chǎng)規(guī)模就將近百億美元,預(yù)計(jì)2020年更是有望超過200億美元(合1346億元人民幣),占整個(gè)生物識(shí)別市場(chǎng)的22.4%。

  以國內(nèi)公共安全領(lǐng)域?yàn)槔?,公安部面向全國推廣聲紋技術(shù),與指紋庫、DNA庫類似,聲紋庫建設(shè)是一項(xiàng)有著重要實(shí)戰(zhàn)價(jià)值的工作,具體表現(xiàn)在聲紋特征具有非接觸式采集的優(yōu)點(diǎn),和已有DNA庫、指紋庫相結(jié)合,可形成立體生物特征庫,建成后直接為多警種服務(wù),是利用高科技手段在偵破案件和訴訟活動(dòng)中應(yīng)用的一個(gè)新的增長(zhǎng)點(diǎn),將能有效提高公安機(jī)關(guān)偵查破案的效率和能力,成為落實(shí)科技強(qiáng)警的重要實(shí)踐之一。目前,公安部已在聲紋庫建設(shè)方面進(jìn)行了重點(diǎn)布局,并選擇快商通等通過公安部標(biāo)準(zhǔn)檢測(cè)的廠商作為聲紋采集設(shè)備提供方,力求雙發(fā)共同完成這項(xiàng)專業(yè)技術(shù)性強(qiáng)、應(yīng)用領(lǐng)域廣、建設(shè)難度大的系統(tǒng)工程。


參與評(píng)論
回復(fù):
0/300
文明上網(wǎng)理性發(fā)言,評(píng)論區(qū)僅供其表達(dá)個(gè)人看法,并不表明a&s觀點(diǎn)。
0
關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團(tuán)旗下的專業(yè)媒體平臺(tái),自1994年品牌成立以來,一直專注于安全&自動(dòng)化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場(chǎng)趨勢(shì)的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化,a&s傳媒擁有首屈一指的國際行業(yè)展覽會(huì)資源以及豐富的媒體經(jīng)驗(yàn),提供媒體、活動(dòng)、展會(huì)等整合營銷服務(wù)。

免責(zé)聲明:本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺(tái)。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的,皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方,且不允許本站使用您的字體和圖片文字等素材,請(qǐng)聯(lián)系我們,本站核實(shí)后將立即刪除!任何版權(quán)方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟(jì)賠償!敬請(qǐng)諒解!
? 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法蘭克福展覽(深圳)有限公司版權(quán)所有 粵ICP備12072668號(hào) 粵公網(wǎng)安備 44030402000264號(hào)
用戶
反饋