近日,2018 OLR Challenge (OLR Challenge-Oriental Language Recognition Challenge)在美國夏威夷宣布了比賽結(jié)果。網(wǎng)易AI分別獲得混淆語言語種識(shí)別和開集語種識(shí)別第一名。
東方語種識(shí)別競(jìng)賽(Oriental Language Recognition Challenge)是由清華大學(xué)語音和語言技術(shù)中心(CSLT)和海天瑞聲(SpeEchocean)于 2016 年共同發(fā)起,其旨在加強(qiáng)相關(guān)領(lǐng)域研究者之間的技術(shù)交流、促進(jìn)東方語種識(shí)別的技術(shù)發(fā)展。繼前兩屆競(jìng)賽的成功舉辦,本年度競(jìng)賽(OLR 2018)共吸引了全球 25 支隊(duì)伍的參與。
相較于上一屆競(jìng)賽,OLR 2018 仍包含了 10 種東方語言,包括漢語普通話、粵語、日語、韓語、俄語、越南語、印尼語、藏語、維吾爾語、哈薩克語,數(shù)據(jù)總量累計(jì)超過 120 小時(shí)。
不同于往屆比賽,OLR 2018 設(shè)置的任務(wù)更具挑戰(zhàn)性和實(shí)用性,共包含以下三個(gè)各有側(cè)重的子任務(wù):1. 短語音語種識(shí)別:該任務(wù)所要識(shí)別的語音時(shí)長(zhǎng)短至 1 秒;2. 混淆語言語種識(shí)別:該任務(wù)所要識(shí)別的語音來自三種極易混淆的語言(普通話、粵語、韓語);3. 開集語種識(shí)別:該任務(wù)所要識(shí)別的語音可能屬于非目標(biāo)語言,用以干擾常規(guī)語種識(shí)別。
在激烈的競(jìng)爭(zhēng)中,網(wǎng)易AI以Cavg 0.0032、EER 0.33%奪冠混淆語言語種識(shí)別比賽;以Cavg 0.0119、EER 3.16%獲得開集語種識(shí)別比賽第一。
網(wǎng)易AI該技術(shù)應(yīng)用于網(wǎng)易內(nèi)部重要產(chǎn)品,為網(wǎng)易集團(tuán)在產(chǎn)品走向國際市場(chǎng)和本土化起到了重要作用。同時(shí),網(wǎng)易AI將技術(shù)對(duì)外商業(yè)化,成為合作方在進(jìn)軍東南亞市場(chǎng)時(shí)的好幫手。
此外,為進(jìn)一步促進(jìn)各參賽隊(duì)伍的技術(shù)分享與交流,將于近期舉辦一場(chǎng)關(guān)于多語言語音處理技術(shù)的研討會(huì)。屆時(shí),網(wǎng)易AI將受邀出席。