近日,澎思科技與新加坡國立大學(xué)Human LanguageTechnology (HLT) 實(shí)驗(yàn)室共同研究的聲紋識別 (Speaker Verification) 技術(shù)在RSR2015數(shù)據(jù)集上刷新世界紀(jì)錄。相比目前主流的算法,該技術(shù)可以在使用50%或更少的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的情況下,依然在各種比較協(xié)議中表現(xiàn)出十分優(yōu)異的性能。此番突破,展現(xiàn)了以計算機(jī)視覺技術(shù)見長的澎思科技,在技術(shù)儲備的深度和寬度上的雙向拓展。
“聞聲識人”的黑科技
聲紋識別(Speaker Verification)也稱為說話人識別,是一種通過聲音判別說話人身份的技術(shù)。該技術(shù)通過對一種或多種語音信號的特征分析來達(dá)到對未知聲音辨別的目的,簡單的說就是辨別某一句話是否是某一個人說的技術(shù)。
聲紋識別作為生物識別技術(shù)的一種,在公共安全、金融、智能家居和辦公等領(lǐng)域都有非常廣闊的應(yīng)用場景,譬如偵查破案、反電信詐騙、治安防控、身份認(rèn)證、支付、門禁、會議錄音等。相比于人臉識別和指紋識別,聲紋的采集只需要麥克風(fēng)模塊,成本相比于攝像頭或者指紋識別模塊而言要低,采集的方便性和安全性則要高。在一些特殊領(lǐng)域,聲紋識別更是具有獨(dú)一無二的優(yōu)勢。
在實(shí)際應(yīng)用中,聲紋識別系統(tǒng)往往需要用戶事先錄入聲音,所以利用更少的數(shù)據(jù)完成聲紋識別的訓(xùn)練在實(shí)際應(yīng)用中有著很大的需求。澎思科技提出的新算法,極大降低了訓(xùn)練所需的數(shù)據(jù)量,但依舊可以實(shí)現(xiàn)非常高的識別精度,有著非常重要的實(shí)際應(yīng)用價值。
刷新RSR2015數(shù)據(jù)集新記錄
RSR2015 (Robust SpeakerRecognition 2015) 數(shù)據(jù)庫是由新加坡國家科技研究局(Agency for Science, Technology andResearch, A*STAR) 信息通信研究所(Institutefor Infocomm Research, IR) 收集和發(fā)布的,被廣泛應(yīng)用于聲紋識別等領(lǐng)域的研究工作,是目前最主流的大型語音數(shù)據(jù)庫之一。該數(shù)據(jù)庫旨在為聲紋識別領(lǐng)域提供相關(guān)的數(shù)據(jù)資源,允許使用不同類型的比較協(xié)議。
聲紋識別中最常用的評價指標(biāo)是等錯誤率(Equal Error Rate,EER),在調(diào)整閾值后,使得錯誤拒絕率(FalseRejection Rate,F(xiàn)RR)等于錯誤接受率(False Acceptance Rate,F(xiàn)AR),此時的FAR與FRR的值稱為等錯誤率。一般來說,越低的等錯誤率表示系統(tǒng)有越好的識別準(zhǔn)確性。
表格1中分別是數(shù)據(jù)庫第一部分的4個子集的測試結(jié)果。其中TW (target wrong) 指的是正確的聲紋驗(yàn)證對象但是使用了錯誤的口令;IC (imposter correct) 代表使用正確口令的聲紋信息的冒名頂替者; IW (imposter wrong) 代表使用錯誤口令的擁有錯誤聲紋信息的人。
在這三項(xiàng)指標(biāo)中,較為重要的是IC任務(wù)。澎思科技提出的新技術(shù)在提升該項(xiàng)任務(wù)的準(zhǔn)確度的同時,兼顧考慮了整個系統(tǒng)的總體性能。
SV (Speaker Verification)和 UV (UtteranceVerification)分別是針對聲紋與口令識別的性能評估方式。兩項(xiàng)任務(wù)綜合體現(xiàn)基于文本的聲紋系統(tǒng)在兩個任務(wù)上的性能表現(xiàn)。其中,SV任務(wù)的性能尤為重要。
在所有的對比中,絕大多數(shù)的算法都使用了RSR2015的背景集(background set)和發(fā)展集(development set)的數(shù)據(jù)以達(dá)到更好的效果。甚至在一些算法中,會添加更多其他數(shù)據(jù)集的數(shù)據(jù)來提升準(zhǔn)確性。與之不同的是,澎思科技提出的新技術(shù)并不依賴于這些的數(shù)據(jù),在極少的訓(xùn)練數(shù)據(jù)情況下,依舊有著非常高的準(zhǔn)確性。詳細(xì)的技術(shù)細(xì)節(jié)將在澎思科技與新加坡國立大學(xué)HLT實(shí)驗(yàn)室聯(lián)合提交至Interspeech2020的論文中介紹,敬請期待。
突破前沿技術(shù) 嚴(yán)守智能安防重地
聲紋識別技術(shù)在公共安全領(lǐng)域有重要的應(yīng)用前景和巨大的市場需求,一直是安防行業(yè)研究的重點(diǎn)。
澎思科技作為一家專注于計算機(jī)視覺和物聯(lián)網(wǎng)技術(shù),提供“以人為核心”行業(yè)綜合應(yīng)用解決方案的人工智能公司,此次在聲紋識別領(lǐng)域取得的突破,彰顯了公司技術(shù)儲備的深度和寬度。聲紋識別技術(shù)一方面符合公司在智能安防領(lǐng)域深耕的長遠(yuǎn)愿景,是針對用戶需求深挖場景,發(fā)現(xiàn)行業(yè)痛點(diǎn)打磨出的新算法技術(shù)和產(chǎn)品;另一方面,也豐富公司計算機(jī)視覺之外的技術(shù)池,提升了技術(shù)方案的完整性,為行業(yè)和落地場景的拓展做好準(zhǔn)備。
在未來,澎思科技的聲紋識別等語音技術(shù)將逐步應(yīng)用到平安城市、智慧社區(qū)、智慧園區(qū)、智慧零售、智慧交通等實(shí)戰(zhàn)應(yīng)用場景中,在與計算機(jī)視覺和物聯(lián)網(wǎng)技術(shù)的配合下,提供更多有效可靠的產(chǎn)品和方案,推動AI技術(shù)的產(chǎn)品化落地和商業(yè)化進(jìn)程。