IBM 近日邁出了重要一步,對(duì) Watson 視覺識(shí)別圖像分類器( Watson Visual Recognition)的處理能力進(jìn)行了更新,它能讓用戶理解圖像或者是視頻中的內(nèi)容。這一系統(tǒng)內(nèi)置數(shù)萬視覺標(biāo)簽,使其常用詞匯量比之前的模式大2.5倍。內(nèi)置詞匯量的擴(kuò)大,使其識(shí)別特殊視覺概念的能力大大提高。
新植入的視覺標(biāo)簽涵蓋了很多種類的視覺概念,其中包括物體、人、地點(diǎn)、活動(dòng)、場(chǎng)景以及其它一些關(guān)于細(xì)致特點(diǎn)類型的詞匯,比如特定的顏色。
每一類詞匯的涉及深度都有所增加,也增加了很多特定的視覺描述詞匯。這使得新植入的分類器能夠?qū)Φ湫蛨D片進(jìn)行更加精確詳細(xì)地分類。同時(shí),它也以分類等級(jí)為基礎(chǔ),對(duì)圖片增加了一般性描述——比如知道馬是一種動(dòng)物。
該服務(wù)也能通過識(shí)別細(xì)小差別來對(duì)圖片進(jìn)行詳細(xì)描述。比如圖片顯示“人們?cè)谟淇斓鼐筒?rdquo;,那么它能夠識(shí)別出,該場(chǎng)景不只是在餐館吃飯,而是能根據(jù)視覺形象更加詳細(xì)地描述出這是在啤酒園里。比如圖片顯示這是 GAIR 全球人工智能與機(jī)器人峰會(huì)的會(huì)場(chǎng),機(jī)器也能識(shí)別出背景圖上的雷鋒網(wǎng) Logo。
視覺識(shí)別能達(dá)到這么精確的水平,是因?yàn)樗F(xiàn)在能夠平均為每個(gè)圖像至少貼上九個(gè)描述性標(biāo)簽——之前平均只有兩到三個(gè)。
IBM 機(jī)器視覺負(fù)責(zé)人 Matthew Hill 表示:“我們之所以能取得這么大的進(jìn)步,是因?yàn)槲覀冇酶鞣N各樣的攝影鏡頭獲得的大量圖片進(jìn)行了實(shí)驗(yàn),并且采用了圖形處理器(GPUs)的分布式網(wǎng)絡(luò)。 Watson 將所有這些信息都融合到具有數(shù)萬標(biāo)簽的卷積神經(jīng)網(wǎng)絡(luò)。我們也研發(fā)出新的推論方法:利用語(yǔ)義推理優(yōu)化該服務(wù)對(duì)圖片的描述,使其更加特殊、突出、準(zhǔn)確。”
當(dāng)然,有些企業(yè)有自己的自定義數(shù)據(jù),他們想為這些數(shù)據(jù)創(chuàng)造自己的分類器。 Watson 視覺識(shí)別也有自定義開發(fā)和分類的特點(diǎn)。當(dāng)需要該服務(wù)需要為某一領(lǐng)域?qū)W習(xí)一套新的圖像標(biāo)簽時(shí)(像產(chǎn)品組合),開發(fā)者可以進(jìn)行快速開發(fā),通過提供示例圖片植入新的自定義模型。然后,應(yīng)用程序可以利用自定義模型,結(jié)合最基本的服務(wù),用一般描述詞匯和特定領(lǐng)域的描述詞匯對(duì)圖片進(jìn)行描述。自定義分類器也可以通過加入新的示例圖片來進(jìn)行升級(jí)。
Hill 表示,視覺識(shí)別的發(fā)展是 IBM 持續(xù)提高 Watson 認(rèn)知領(lǐng)域能力的重要一步。它是基于世界范圍內(nèi)對(duì)視覺理解的不斷研發(fā)。視覺理解取得了一系列突破性進(jìn)展,包括利用圖像分析改善對(duì)皮膚癌患者的治療,改進(jìn)圖像自動(dòng)生成字幕技術(shù)以及突破人工智能和創(chuàng)造性的限制,制作世界上第一步認(rèn)知電影預(yù)告片等。