從阿里云官方獲悉,近日,國際權(quán)威機器視覺問答榜單VQA Leaderboard出現(xiàn)關(guān)鍵突破,阿里巴巴達摩院以81.26%的準確率創(chuàng)造了新紀錄,讓AI在“讀圖會意”上首次超越人類基準。
近10年來,AI技術(shù)保持高速發(fā)展。然而在視覺問答VQA(Visual Question Answering)這一涉及視覺-文本多模態(tài)理解的高階認知任務(wù)上,AI始終未取得超越人類水平的突破。
自然語言技術(shù)與計算機視覺交融,是多模態(tài)領(lǐng)域重要的前沿研究方向。其中,VQA是AI領(lǐng)域難度最高的挑戰(zhàn)之一,對研發(fā)通用AI具有重要意義。
VQA的任務(wù)是根據(jù)給定圖片及自然語言問題,生成正確的自然語言回答。
在首屆VQA挑戰(zhàn)賽上,AI的最高準確率僅能達到55%。今年8月,達摩院以81.26%的準確率創(chuàng)造VQA Leaderboard全球紀錄,首次超越人類基準線80.83%。
這是VQA測試以來,AI第一次超過人類水平,是標志性的重大突破。