在由美國佐治亞理工大學、FACEBOOK人工智能實驗室等機構創(chuàng)辦的視覺對話大賽上,來自中國阿里巴巴公司的AI戰(zhàn)勝了全球眾多知名公司的AI程度,取得了看圖后正確回答人類提問測試的桂冠。憑借74.57%的正確率取得了第一名,而排名第二的來自微軟公司的AI的正確率為64.78%。
基于同樣圖片,人類回答類似的問題的準確率為64.27%。也就是說全球排名第二精確的AI和人類水平差不多,排名第一的AI則高出人類平均水平10.3%。阿里的AI比人看圖還準確。
關于視覺對話大賽是這樣的。首先準備將近一萬張(或者更多)的圖片供AI識別。當機器計算完成后,人類會在識別圖片范圍內隨機選擇一張圖片并提出問題。問題都是具有相關性與邏輯性的。比如圖片中拿著傘的男人旁邊的人身上衣服是什么顏色的之類。
通常AI都能夠識別出男人、女人、動物、花草之類的。這都是基于圖像識別來實現(xiàn)原。而視覺對話大賽關注點可不是簡單的認出圖片中物品是什么那么簡單。因為圖像識別技術已經(jīng)發(fā)展的非常成熟,據(jù)說就算一個人做了整形手術(美容的那種),AI仍可以在極短時間內正確識別出來。
比賽卻是要求AI能夠在正確認出事物的基礎上,掌握事物間相互關系。對于物體間空間位置,邏輯關系AI必須能夠看懂看明白。感覺上比賽要求AI只有具備了思考判斷的能力后,才能參加這個比賽。這可是非常困難的事情。雖然研究者們一直在試圖利用數(shù)學方式解釋真實世界上復雜的關系,但是并沒有特別出眾的AI展現(xiàn)到人們面前。前些時候谷歌的電話人工智能還被爆出“作弊”事件,讓人們對于AI的發(fā)展程度充滿疑慮。
通過這次公開比賽,表現(xiàn)出來AI的思考能力還是讓人非常驚喜的。仿佛阿里的AI具備了人類大腦一樣,甚至比人類自己判斷的都要準確。
這個比賽之所以稱為視覺對話大賽,還有非常核心的一點是AI必須能夠聽懂人在說什么內容,或者人類想輸入給AI的信息。阿里的AI使用了自然語言處理技術,讓其AI具備了同人類使用自然語言自然交流的能力。從測試表現(xiàn)上來看,整個過程顯得非常自然,如果兩個人類之間的交流一樣。
人工智能技術絕對是未來信息技術發(fā)展的一個極致,是各個國家著力發(fā)展的關鍵技術。我們進入了信息化時代,周圍的一切正在以不可思議的速度數(shù)字化,無論是萬物互聯(lián)還是大數(shù)據(jù)的運用,為人工智能技術的出展與成長打下了堅實的基礎。這也是為什么最近幾年AI技術突飛猛進的原因之一。
未來誰掌握了AI技術誰就掌握了未來科技發(fā)展的核心,也就掌握了未來發(fā)展的趨勢。而這次阿里向世人展現(xiàn)出了一個能像人類識別真實世界、能夠像人類一樣思考邏輯、能夠像人類一樣同其他人自然交流的AI。無論從哪個角度來看,阿里的AI更像一個人類了。而這是AI技術發(fā)展追求的效果之一。
按照這個速度發(fā)展,在不久的將來會有更多更像人類的AI出現(xiàn)在我們的社會中,并服務于人類的方方面面。存在于人類幻想中的世界也即將變成顯示。