當(dāng)你感到語言蒼白無力的時(shí)候。
你在掃街的時(shí)候,突然發(fā)現(xiàn)某撩妹達(dá)人穿了一身炫酷的T恤。
你收到朋友送來的生猛紅酒,好奇這到底是百年窖藏還是山寨葡萄糖。
你在編輯文案的時(shí)候,一張非常適合的圖片卻掛著水印,你需要一個(gè)清晰的版本(請(qǐng)支持正版。。。)
以圖搜圖就像一個(gè)“癢癢撓”,能夠到文字搜索難以企及的癢點(diǎn)。這讓我們對(duì)這種搜索方式的結(jié)果抱有很高的期待。它讓很多人能透過互聯(lián)網(wǎng)的森林,感受到若隱若現(xiàn)的人工智能靈魂。這可能正是人們對(duì)這種技術(shù)好奇的原因。
【圖像識(shí)別的應(yīng)用場(chǎng)景】
和這種技術(shù)為伴十多年的陳杰博士,是博云視覺的CEO。他帶領(lǐng)北大團(tuán)隊(duì)研發(fā)的圖像識(shí)別技術(shù)如今被用在百度和微信的圖像搜索和圖像識(shí)別場(chǎng)景中。他為雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號(hào)關(guān)注)詳細(xì)介紹了圖像識(shí)別的一個(gè)重要門派——基于尺度空間理論的視覺搜索。
【陳杰】
視覺的秘密
人的視覺原理很簡(jiǎn)單:物體反射自然光在眼中成像。
如果面前是一面巨大的白墻,你很難看出其中的細(xì)節(jié)。但是如果在墻面上畫了一只鳥,你一眼就可以分辨出來。
你之所以能看到眼前這個(gè)鳥,是因?yàn)槟愕囊曈X認(rèn)為它是一個(gè)“斑點(diǎn)”。通俗來講,就是某個(gè)東西和周圍的物體產(chǎn)生了反差。
陳杰如此解釋視覺的原理。
所以在你的眼中,眼前的場(chǎng)景是由一些“刺激點(diǎn)”組成的。這些便是圖像的“特征點(diǎn)”。而如果機(jī)器能夠和人一樣準(zhǔn)確地識(shí)別兩張圖片中相同的“特征點(diǎn)”,就可以實(shí)現(xiàn)以圖搜圖這種高科技了。
但對(duì)于人眼來說易如反掌的刺激點(diǎn),怎么用機(jī)器語言記錄呢?
陳杰告訴雷鋒網(wǎng),在機(jī)器眼中,每一個(gè)特征點(diǎn)都會(huì)被記錄為描述性的數(shù)據(jù),這些數(shù)據(jù)包括像素矩陣,顏色、紋理、梯度、形狀分布等
在博云視覺的算法中,每張圖片會(huì)被提取1000個(gè)左右的特征點(diǎn),而這些特征數(shù)據(jù)的大小約為 2Kb-4Kb。
雖然背后的算法極其精細(xì),但是粗略來說,對(duì)數(shù)據(jù)庫中的每張照片提取特征之后,圖像搜索就可以開始了。
用戶提交搜索的查詢圖片,系統(tǒng)會(huì)自動(dòng)提取圖片上的特征點(diǎn),再用特征點(diǎn)和數(shù)據(jù)庫中的圖片特征做對(duì)比,兩個(gè)圖片的特征點(diǎn)匹配越多,系統(tǒng)就認(rèn)為兩張圖片最為相似。于是,用戶會(huì)得到一個(gè)
按照相似度排序的搜索結(jié)果列表。
陳杰說,“一般兩張圖片擁有10個(gè)匹配的特征點(diǎn),我們就可以認(rèn)為他們是相似圖片。”
警察叔叔的利器
一般童鞋可能想不到,這個(gè)高科技解放了警察叔叔。
對(duì)于重大案件來說,嫌疑人的汽車往往是破案的重要線索。于是如何從數(shù)以億計(jì)的監(jiān)控圖像中找出某個(gè)特定汽車,成為了警察叔叔的噩夢(mèng)。
以往的方法是:警察叔叔們趴在電腦前,連續(xù)看上一兩個(gè)月監(jiān)控視頻,才能基本找到所有包含目標(biāo)汽車的監(jiān)控圖像。(由于汽車的移動(dòng),所以一般會(huì)在多個(gè)監(jiān)控圖像中發(fā)現(xiàn)目標(biāo)。)
但是如果使用圖像識(shí)別技術(shù),只要依靠一張樣本,就可以在幾小時(shí)之內(nèi),基本找到所有目標(biāo)圖像。
陳杰告訴雷鋒網(wǎng),在和某地公安的聯(lián)合實(shí)驗(yàn)中,在搜索結(jié)果的前200位中,包含了正確結(jié)果的90%。也就是說:如果目標(biāo)共出現(xiàn)在50張圖片中,那么在前200位結(jié)果中包含45個(gè)。
【利用監(jiān)控圖片搜索指定汽車】
“增強(qiáng)現(xiàn)實(shí)”的工具
但是,一輛車一定是以各個(gè)角度和姿態(tài)出現(xiàn)在監(jiān)控圖像中,那么識(shí)別系統(tǒng)為什么可以做出相對(duì)準(zhǔn)確的識(shí)別呢?
陳杰表示,使用這種技術(shù)做圖像識(shí)別,需要面對(duì)三個(gè)重要的干擾因素:
光照
由于同一個(gè)物體在不同光線下,特征點(diǎn)的像素呈現(xiàn)出的數(shù)據(jù)會(huì)有很大的差異。所以好的算法必須能夠排除光線的干擾,提取物特征點(diǎn)最基礎(chǔ)的信息。但是不可否認(rèn),在極端弱光(例如黑夜)或者極端復(fù)雜光線(例如酒吧)下,特征的辨識(shí)力會(huì)降低。
幾何變換
一輛汽車從各個(gè)角度來看,有很大的區(qū)別。根據(jù)物體的拍攝角度不同,特征信息一定會(huì)發(fā)生變化。然而人眼仍然能夠識(shí)別出兩個(gè)不同角度的圖像是同一物體。對(duì)于機(jī)器識(shí)別系統(tǒng)來說,則需要根據(jù)不同的角度變換進(jìn)行計(jì)算,這樣就能盡可能做到物體平移、旋轉(zhuǎn)等幾何變換之后依然可以進(jìn)行準(zhǔn)確匹配。
距離
如果物體在畫面中位置過遠(yuǎn),就會(huì)變得更小,這樣圖像上的細(xì)節(jié)就會(huì)大量丟失。這樣的話,一張近視圖和遠(yuǎn)視圖就很難被機(jī)器認(rèn)定為相似。為了解決這個(gè)問題,陳杰和團(tuán)隊(duì)采用了一種基于尺度空間理論的方法:將每張圖片以不同的量級(jí)進(jìn)行高斯模糊,這個(gè)動(dòng)作是為了模擬人眼在不同距離看到的物體。在這些模糊圖片進(jìn)行特征提取和比對(duì),就可以匹配距離鏡頭不同距離的同一物體。
解決了“距離”這個(gè)棘手的問題,這種圖像識(shí)別的方法就可以完美地應(yīng)用在增強(qiáng)現(xiàn)實(shí)的游戲中。在這種情況下,應(yīng)用場(chǎng)景往往是預(yù)設(shè)而且固定的,所以游戲的提供商可以把真實(shí)的場(chǎng)景通過拍攝不同角度和遠(yuǎn)近的照片,然后錄入數(shù)據(jù)庫。玩家在進(jìn)行游戲的時(shí)候,會(huì)佩戴帶有攝像頭的眼鏡,這種情況下,圖像識(shí)別系統(tǒng)就可以對(duì)玩家眼中的“景物”和數(shù)據(jù)庫中的圖片匹配,理解玩家的具體位置,從而在眼鏡中加入各種奇幻的特效
蕾絲邊的福音
你知道蕾絲嗎?我自己都沒有想到這個(gè)技術(shù)可以用于蕾絲制造行業(yè)。
陳杰說。
有一個(gè)專門做蕾絲花紋搜索引擎的團(tuán)隊(duì)找到陳杰,告訴他一個(gè)行業(yè)的痛點(diǎn):蕾絲生產(chǎn)廠家經(jīng)常生產(chǎn)一些特定的類似花紋,尋求買家。但是蕾絲的花紋通常根本無法用人類的語言來形容,所以經(jīng)常可以看到有人在微信群里發(fā)很多圖片,詢問是否有人需要這個(gè)樣式;對(duì)于買家來說,他們也會(huì)發(fā)圖片,并且詢問是否有人有這樣的花紋。
這種情況下這個(gè)蕾絲花紋搜索引擎就出現(xiàn)了,它對(duì)接了買家和賣家。這種搜索引擎,需要的恰恰是這種圖像識(shí)別技術(shù)。
以驢找驢vs以驢找馬
圖像識(shí)別同樣可以拯救紅酒控。
陳杰告訴雷鋒網(wǎng),博云視覺服務(wù)的客戶中,就有一個(gè)專門幫用戶識(shí)別酒標(biāo)的 App。“這個(gè)團(tuán)隊(duì)擁有一個(gè)巨大的酒標(biāo)數(shù)據(jù)庫??梢酝ㄟ^拍照搜索的方式,獲得很多奇特紅酒的詳細(xì)信息。”
尋找酒標(biāo)是尺度空間理論圖像識(shí)別的典型應(yīng)用方式。因?yàn)樗弦粋€(gè)一個(gè)規(guī)則:在數(shù)據(jù)庫中找到完全相同的圖片/物體。用通俗的話來說,就是“以驢找驢”。而在我們的搜索需求中, 還存在一種“以驢找馬”的需求,它的目的是搜索相似圖片/物體。
【各類紅酒標(biāo)】
陳杰告訴雷鋒網(wǎng),以驢找馬這種需求,目前更多地使用區(qū)別于“尺度空間理論識(shí)別”的“機(jī)器學(xué)習(xí)”的技術(shù)路線,這也是普通人更熟悉的一種技術(shù)。
機(jī)器學(xué)習(xí),主要原理是給一個(gè)運(yùn)算力強(qiáng)大的計(jì)算機(jī)群學(xué)習(xí)大量的數(shù)據(jù),然后讓機(jī)器提取出這一類素材的內(nèi)部規(guī)律,用這類規(guī)律幫人類工作。例如不久前戰(zhàn)敗李世石的阿法狗,使用的就是機(jī)器學(xué)習(xí)的方式。
【以驢找驢的搜索方式,可以更好地發(fā)現(xiàn)完全一致的圖像結(jié)果】
這種技術(shù)在資源充足的情況下,后期會(huì)出現(xiàn)驚人的能力。但是它需要兩個(gè)重要的因素:
1、用來“喂養(yǎng)”系統(tǒng)的巨大數(shù)據(jù)樣本
2、超高的計(jì)算能力,超長(zhǎng)的計(jì)算時(shí)間,超大的存儲(chǔ)空間。
“這種技術(shù)就像火箭發(fā)射,需要足夠的燃料(數(shù)據(jù))和強(qiáng)大的發(fā)動(dòng)機(jī)(計(jì)算機(jī)性能)”陳杰說,
所以在很多場(chǎng)景中, “尺度空間識(shí)別”和“機(jī)器學(xué)習(xí)識(shí)別”需要結(jié)合起來,才能產(chǎn)生最優(yōu)的效果。
有一點(diǎn)確定無疑,那就是隨著圖像識(shí)別領(lǐng)域的技術(shù)爆發(fā),這種“解癢”的技術(shù)究竟可以用來解決很多具體的問題。正如“蕾絲邊問題”一樣,在很多情況下,沒有人會(huì)把這種技術(shù)和具體的問題聯(lián)系起來。
或者說:對(duì)科技的魔力,我們?nèi)匀汇氯粺o知。