很長(zhǎng)一段時(shí)間以來(lái),人工智能的研究都停留在文字層面,比如著名的圖靈測(cè)試(Turning Test),證明了機(jī)器能夠像人類(lèi)一樣智能地回答書(shū)面問(wèn)題。而如果讓機(jī)器變得更聰明,僅僅處理文字顯然是不夠的。事實(shí)上,人類(lèi)心智非常善于視覺(jué)處理。從所見(jiàn)當(dāng)中識(shí)別圖案、物體以及文本情景的能力讓我們很智能,這種能力也是人的本質(zhì)特征。
不過(guò)直到最近,計(jì)算機(jī)都對(duì)圖片束手無(wú)策。比如,除非人為添加一些標(biāo)簽和注釋?zhuān)駝t機(jī)器就無(wú)法理解圖片,圖片也就是成了無(wú)用的文件。但是,這種尷尬的情況正在發(fā)生變化。一大批能看懂圖片的人工智能技術(shù)已經(jīng)來(lái)到人間,下面不妨來(lái)看看機(jī)器之心的盤(pán)點(diǎn):
谷歌 TensorFlow
5月份谷歌推出 Google Photos時(shí),媒體關(guān)注的焦點(diǎn)是:人工智能和圖片搜索結(jié)合后所產(chǎn)生的強(qiáng)大功能。谷歌聲稱(chēng)(并且用戶也很快確認(rèn)),搜尋特定某人,你會(huì)找到對(duì)方從現(xiàn)在到嬰兒時(shí)期的照片。搜索品種名,你就能找到相應(yīng)品種狗的照片。把名字和食品類(lèi)別結(jié)合起來(lái),比如輸入「最大披薩」,就能鎖定特定圖片。
這款應(yīng)用發(fā)布之初,媒體無(wú)從得知谷歌究竟研發(fā)了多長(zhǎng)時(shí)間。不過(guò),一些搜索功能在Google+上出現(xiàn)一年多了。
兩周前,谷歌以TensorFlow平臺(tái)形式開(kāi)源了它的人工智能主體部分。
盡管TensorFlow并不是第一個(gè)開(kāi)源人工智能平臺(tái),但是,它是與谷歌強(qiáng)大圖片搜索關(guān)系最為密切一個(gè)。
開(kāi)源TensorFlow意味著,包括初創(chuàng)公司在內(nèi)的其他公司,能夠利用谷歌的這個(gè)開(kāi)源平臺(tái),快速將人工智能和圖片結(jié)合起來(lái)。盡管谷歌并未開(kāi)放人工智能關(guān)鍵技術(shù),包括在眾多服務(wù)器上運(yùn)行的能力。谷歌也沒(méi)有開(kāi)放讓其如此強(qiáng)大的用戶數(shù)據(jù)庫(kù)。但是,谷歌的此舉毫無(wú)疑問(wèn)將刺激整個(gè)機(jī)器學(xué)習(xí)和人工智能創(chuàng)業(yè)生態(tài)的發(fā)展。
我們也期待著基于TensorFlow的各種震撼新應(yīng)用能于明年進(jìn)入市場(chǎng)。
Facebook Photo Magic
Facebook近期開(kāi)始在Messenger應(yīng)用上測(cè)試一項(xiàng)新功能——Facebook Photo Magic。這是一個(gè)可選應(yīng)用,它會(huì)掃描手機(jī)相冊(cè)照片并對(duì)它們進(jìn)行面部識(shí)別處理。Photo Magic會(huì)識(shí)別照片中的人物(他們也是你的Facebook好友),建議你和他們一起分享這些照片?! ?/p>
毫無(wú)疑問(wèn),這項(xiàng)功能給Facebook帶來(lái)了雙重優(yōu)勢(shì)。首先,它鼓勵(lì)用戶更多在Messenger上分享。其次,它改善了識(shí)別。但是,僅僅這項(xiàng)便利功能是不夠的,用戶實(shí)際上可以贊成或拒絕在任意燈光條件、角度和其他參數(shù)條件下,F(xiàn)acebook使用人工智能對(duì)面部和名字進(jìn)行匹配。Facebook人工智能掌握的照片越多,識(shí)別效果也越好。
令人吃驚的是,即使遮住了臉部,F(xiàn)acebook的「面部識(shí)別」一樣能能識(shí)別出你的臉部。這個(gè)系統(tǒng)也關(guān)注發(fā)型、姿勢(shì)、衣著和身材。(請(qǐng)注意,我們并不清楚Facebook是否已經(jīng)實(shí)現(xiàn)了這種先進(jìn)系統(tǒng),但很明顯的是,它從用戶照片中收集數(shù)據(jù)。)
Facebook 的Photo Magic拓展了圖片庫(kù)來(lái)源,它不僅收集Facebook(社交網(wǎng)站),還收集Messenger(聊天應(yīng)用)的數(shù)據(jù),擴(kuò)充了數(shù)據(jù)量。Photo Magic還鼓勵(lì)贊成或否定匹配結(jié)果,提高數(shù)據(jù)質(zhì)量。
很明顯,F(xiàn)acebook最終目標(biāo)是識(shí)別任意場(chǎng)景中的任何人,即使在看不清臉部的惡劣燈光條件下。毫無(wú)疑問(wèn),未來(lái)Facebook的人工智能會(huì)掃描和分析環(huán)境,發(fā)現(xiàn)可市場(chǎng)化的線索——比如,如果某人在照片里經(jīng)常打棒球,廣告商就可以利用這個(gè)信息鎖定棒球迷,盡管他在上傳照片的文字里并沒(méi)有表露出這種興趣。
毫無(wú)疑問(wèn),他們也打算通過(guò)觀察圖片中一起出現(xiàn)的人,進(jìn)一步建立社交圖譜。
微軟牛津項(xiàng)目(Project Oxford)
微軟日前也更新它的牛津項(xiàng)目,這是一個(gè)工具包,讓開(kāi)發(fā)者通過(guò)旗下的Azure云平臺(tái),使用微軟的人工智能系統(tǒng)。
這個(gè)工具包支持人工智能各個(gè)方面的應(yīng)用,包括口語(yǔ),視頻和其他媒體。但是,最震撼和最強(qiáng)大的功能莫過(guò)于牛津項(xiàng)目現(xiàn)在支持開(kāi)發(fā)者通過(guò)牛津人臉應(yīng)用平臺(tái)接口項(xiàng)目( Project Oxford Face API)檢測(cè)圖片中的人物表情?!?/p>
譬如,用牛津項(xiàng)目處理一張包含5個(gè)人的照片,識(shí)別照片中的臉以及每個(gè)人的表情——快樂(lè),憤怒或惡心。
這項(xiàng)功能在新的高度,像人類(lèi)一樣「理解」圖片質(zhì)量。觀看他人照片時(shí),人們關(guān)注的最重要特征就是個(gè)人或群體的情感狀況。
Pinterest Visual Search
Pinterest日前發(fā)布了全新的圖片搜索功能,它能幫助用戶發(fā)現(xiàn)更多的信息甚至幫助購(gòu)買(mǎi)他們?cè)诠潭ㄕ掌锟吹降漠a(chǎn)品。
首先,在 Pinterest的圖片中選中任一物體(來(lái)回拖動(dòng)一個(gè)盒狀標(biāo)識(shí))。然后,搜索工具會(huì)找到具有相似圖案和顏色的相似物,系統(tǒng)會(huì)將最匹配的結(jié)果鏈接到購(gòu)買(mǎi)按鈕上,點(diǎn)擊這里就能購(gòu)買(mǎi)該產(chǎn)品。
這個(gè)功能是以伯克利視覺(jué)和學(xué)習(xí)中心(Berkeley Vision and Learning Center)的深度學(xué)習(xí)人工智能為基礎(chǔ)的。
這種照片人工智能應(yīng)用可以說(shuō)是萬(wàn)維網(wǎng)照片的雛形,在這個(gè)萬(wàn)維網(wǎng)中,每張圖片中的每個(gè)物體都與等同物或者相似物、相關(guān)物彼此關(guān)聯(lián)。
CloudSight
一家名為CamFind的圖片識(shí)別和視覺(jué)搜索公司,今年推出了一個(gè)「云視覺(jué)」(CloudSight)的公共應(yīng)用平臺(tái)接口。
這個(gè)API支持開(kāi)發(fā)者使用CamFind的人工智能分析圖片內(nèi)容。這樣的掃描大多數(shù)情況下具有高度特定性,比如,能識(shí)別汽車(chē)的制造和模型,或者狗的品種以及食品的具體類(lèi)型。一旦分析出圖片中的物品,開(kāi)發(fā)者就可以使用這些信息來(lái)獲取網(wǎng)絡(luò)上的文字信息。
Deepomatic
Deepomatic開(kāi)發(fā)了一種服務(wù)型軟件智能搜索引擎,它能識(shí)別圖片中各種各樣的數(shù)據(jù)。Deepomatic熱衷時(shí)尚。它不僅匹配顏色,圖案和其他數(shù)據(jù),還能識(shí)別圖片中的物品,并將它與一個(gè)全面的時(shí)尚產(chǎn)品數(shù)據(jù)庫(kù)進(jìn)行匹配。
Deepomatic網(wǎng)站聲稱(chēng),其技術(shù)模擬了人類(lèi)大腦接收視覺(jué)信息的方式并用這種方式來(lái)理解各種概念。
遠(yuǎn)大前景
每當(dāng)想到這樣一個(gè)令人驚喜的新世界:能夠理解照片內(nèi)容的人工智能將無(wú)處不在,具有強(qiáng)大擴(kuò)展?jié)摿η彝偈挚傻脮r(shí),這些無(wú)限可能性就會(huì)令人嘆為觀止。
而且,這僅僅是一個(gè)開(kāi)始。在絕大多數(shù)情況下,這項(xiàng)技術(shù)幾乎都能通過(guò)API,開(kāi)源程序或服務(wù)化處理得以應(yīng)用實(shí)現(xiàn),因此,我們已經(jīng)站在了未來(lái)世界的入口:圖像AI將和網(wǎng)絡(luò)搜索一樣普及,成為這個(gè)世界的一個(gè)基本特征。為了真正模擬人工智能,計(jì)算機(jī)必須有視覺(jué),現(xiàn)在它們有了。