a&s專業(yè)的自動化&安全生態(tài)服務(wù)平臺

公眾號

安全自動化

安防知識網(wǎng)

手機站

大安防供需平臺

搜索
登錄
|
注冊

搜索

全站搜索
AI應(yīng)用搜索

首頁 > 資訊 > 正文

阿里攜美國學(xué)院推出AI唇語解讀新方法

2019-12-06 09:00 閱讀 2166 來源：智東西評論區(qū)

該方法利用視頻中的語音信息作為輔助線索，減少了AI對視頻中無關(guān)幀的關(guān)注，使其注意力更加集中。據(jù)研究人員稱，使用該方法的AI在兩個唇語閱讀基準測試中，字符錯誤率分別降低了7.66％和2.75％。

　　據(jù)外媒報道，阿里巴巴浙江大學(xué)研究中心和史蒂文斯理工學(xué)院的研究人員近日推出了一種提升AI閱讀唇語準確率的方法——“Lip by Speech（LIBS）”。

　　該方法利用視頻中的語音信息作為輔助線索，減少了AI對視頻中無關(guān)幀的關(guān)注，使其注意力更加集中。據(jù)研究人員稱，使用該方法的AI在兩個唇語閱讀基準測試中，字符錯誤率分別降低了7.66％和2.75％。

　　一、圖像語音相結(jié)合解讀唇語

　　實際上，能夠從視頻中讀唇語的AI和機器學(xué)習(xí)算法并不是什么新鮮事物。早在2016年，谷歌和牛津大學(xué)的研究人員就詳細介紹了一種系統(tǒng)，該系統(tǒng)可以以46.8％的精度注釋視頻素材，優(yōu)于專業(yè)讀唇語人員12.4％的精度。但是，即使是最先進的系統(tǒng)也難以解決唇部運動的“一語多義”問題，從而使唇語識別的準確率一直無法超越語音識別。

　　為了追求唇語閱讀性能更加強大的系統(tǒng)，阿里巴巴浙江大學(xué)研究中心和史蒂文斯理工學(xué)院的研究人員設(shè)計了一種方法，稱為“Lip by Speech（LIBS）”。該方法利用從語音識別器中提取的特征信息作為補充線索。他們說，利用該方法的系統(tǒng)在兩個基準測試中都達到了業(yè)界領(lǐng)先的準確性，在字符錯誤率方面分別降低了7.66％和2.75％。

　　LIBS和其他類似的解決方案可以幫助那些聽障人士觀看缺少字幕的視頻。據(jù)估計，全世界有4.66億人患有失能性聽力障礙（disabling hearing loss），約占世界人口的5％。根據(jù)世界衛(wèi)生組織的數(shù)據(jù)，到2050年，這一數(shù)字可能會超過9億。

　　二、LIBS方法是怎樣應(yīng)用的？

　　LIBS會以多種規(guī)模等級，從有聲視頻中提取有用的音頻數(shù)據(jù)，包括序列級（sequence level）、文本級（context level）和幀級（frame level）。然后，將這些提取的數(shù)據(jù)與視頻數(shù)據(jù)通過他們之間的對應(yīng)關(guān)系對齊，最后利用一種篩選（filtering）技術(shù)來優(yōu)化（refine）提取的數(shù)據(jù)。

　　LIBS的語音識別器和唇語閱讀器這兩部分均為一種“基于注意力的序列到序列的（attention-based sequence-to-sequence）”體系結(jié)構(gòu)，這種體系結(jié)構(gòu)可將一段音頻或視頻序列的輸入信息轉(zhuǎn)化為帶有標簽和注意價值（attention value）的輸出信息。

　　研究人員通過上述方法在LRS2數(shù)據(jù)集上對系統(tǒng)進行訓(xùn)練，LRS2包含來自BBC的45,000多個口頭句子，同時也在CMLR上訓(xùn)練，CMLR是現(xiàn)有的最大中文普通話口語語料庫，具有來自中國網(wǎng)絡(luò)電視臺的10萬多個自然句子（包括3,000多個中文字符和20,000個詞組）。

　　三、“幀級知識提取”是關(guān)鍵

　　該團隊指出，由于LRS2數(shù)據(jù)集中的某些句子過短，該系統(tǒng)難以在LRS2數(shù)據(jù)集上實現(xiàn)“合理的”結(jié)果。但是，一旦對最大長度為16個單詞的句子進行了預(yù)訓(xùn)練，解碼器就可以利用文本級的知識，提高LRS2數(shù)據(jù)集中句子結(jié)尾部分的質(zhì)量。

　　研究人員在論文中寫道：“LIBS減少了對無關(guān)幀的關(guān)注”，“幀級知識的提?。╢rame-level knowledge distillation）進一步提高了視頻幀特征的可分辨性，使注意力更加集中?！?/p>

免責聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

您可能也喜歡這些文章

阿里攜美國學(xué)院推出AI唇語解讀新方法

AI唇語解讀視頻信息阿里巴巴

參與評論

回復(fù)：

0/300

文明上網(wǎng)理性發(fā)言，評論區(qū)僅供其表達個人看法，并不表明a&s觀點。

0

推薦專題

熱門排行

關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團旗下的專業(yè)媒體平臺，自1994年品牌成立以來，一直專注于安全&自動化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場趨勢的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化，a&s傳媒擁有首屈一指的國際行業(yè)展覽會資源以及豐富的媒體經(jīng)驗，提供媒體、活動、展會等整合營銷服務(wù)。

全球網(wǎng)站
法蘭克福
asmag.com
asmag.com.cn
中國臺灣智慧安防網(wǎng)

免責聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

粵公網(wǎng)安備 44030402000264號

用戶
反饋

中文字幕日韩一区二区不卡,亚洲av永久无码精品天堂动漫,亚洲av无码国产精品麻豆天美,最新版天堂中文在线,中文字幕视频在线看

阿里攜美國學(xué)院推出AI唇語解讀新方法