何為視覺(jué)大數(shù)據(jù)?
簡(jiǎn)而言之可稱之為為計(jì)算機(jī)配上一對(duì)“眼睛”,讓它可以看懂世界,但可惜的是,機(jī)器視覺(jué)發(fā)展這么多年,目前世界上最聰明的機(jī)器如阿爾法go等雖然都取得了很不錯(cuò)的成績(jī),但令人遺憾的是它們都有一個(gè)共同的致命缺陷——瞎的,這其中最主要的問(wèn)題在于看與看懂,如何讓機(jī)器看懂也是擺在科技界的一道難題。
對(duì)此,發(fā)展視覺(jué)大數(shù)據(jù)就變得尤為重要,全宇暉教授表示,視覺(jué)大數(shù)據(jù)存在的前提是它要能夠被人的視覺(jué)系統(tǒng)感知到,而現(xiàn)如今最主要的視覺(jué)大數(shù)據(jù)便是圖像與視頻。值得注意的是以上所提都需滿足大數(shù)據(jù)的必備條件。
視覺(jué)大數(shù)據(jù)的核心內(nèi)涵
一、視覺(jué)大數(shù)據(jù)的“大”,表現(xiàn)在數(shù)量、尺寸、維度三個(gè)方面,即數(shù)據(jù)的體積足夠大。
二、視覺(jué)大數(shù)據(jù)的“數(shù)”傳達(dá)的內(nèi)涵是指我們接觸到的數(shù)據(jù)是量化過(guò),或者離散過(guò)的數(shù)字,人類肉眼觀察到的圖像,對(duì)于計(jì)算機(jī)來(lái)說(shuō)其實(shí)是一種數(shù)字矩陣。
三、視覺(jué)大數(shù)據(jù)的“據(jù)”則表明這些數(shù)字不是純粹的數(shù)字,它可以提供客觀依據(jù)來(lái)進(jìn)行行為決策。人們獲取了視覺(jué)線索之后,需要對(duì)其進(jìn)行信息提取、內(nèi)容分析、知識(shí)學(xué)習(xí)、理解決策四個(gè)步驟,其核心是利用到數(shù)學(xué)工具與模型算法。
這三個(gè)方面表明,在以往人類的生活生產(chǎn)中,存在一些固定模式和變化方向,這些固定模式通過(guò)科學(xué)無(wú)法解釋并存留至今;但變化方向則可通過(guò)大數(shù)據(jù)進(jìn)行挖掘,找到適合人類發(fā)展、方便人類生活的方向,而由于應(yīng)用方向的不同,因而在大數(shù)據(jù)挖掘本身也存在著不同,比如今天所談的視覺(jué)大數(shù)據(jù)分析。
全宇暉教授進(jìn)一步指出,視覺(jué)大數(shù)據(jù)的工作內(nèi)容主要集中在三方面:分析識(shí)別、質(zhì)量評(píng)估和質(zhì)量提升。而在分析識(shí)別方面,全教授提出了三個(gè)工作案例,來(lái)幫助進(jìn)一步了解視覺(jué)大數(shù)據(jù)的工作機(jī)理:一是靜態(tài)紋理圖像識(shí)別。它利用的是計(jì)算機(jī)的一種基本運(yùn)行能力,在開(kāi)展這一工作時(shí),研究者提供給計(jì)算機(jī)不同的紋理圖像,從而得到計(jì)算機(jī)對(duì)其識(shí)別處理后的反饋結(jié)果。二是動(dòng)態(tài)紋理視頻識(shí)別。全宇暉教授介紹到,具有特定紋理的物體,在運(yùn)動(dòng)時(shí),會(huì)表現(xiàn)出特有的周期性運(yùn)動(dòng)規(guī)律,而研究者讓計(jì)算機(jī)利用這些額外的信息,對(duì)不同的視頻信息進(jìn)行分析與分類。三是物體的識(shí)別。計(jì)算機(jī)根據(jù)形狀與輪廓特征,對(duì)物體進(jìn)行目標(biāo)識(shí)別,可以實(shí)現(xiàn)原有工作方法在精度上的提升。
在質(zhì)量評(píng)估工作方面,研究者主要是通過(guò)給予計(jì)算機(jī)一定的運(yùn)行程序,使計(jì)算機(jī)能夠給出符合人的認(rèn)知的評(píng)價(jià)結(jié)果。質(zhì)量提升工作的目標(biāo)是,提出一些新的方法,來(lái)實(shí)現(xiàn)圖像的質(zhì)量提升,使得被外因干擾的圖像得到最好的呈現(xiàn)效果。
視覺(jué)數(shù)據(jù)表征工作是視覺(jué)大數(shù)據(jù)核心
全宇暉教授表示,目前視覺(jué)大數(shù)據(jù)的工作是分開(kāi)進(jìn)行的,但最終的目的只有一個(gè),就是把分析識(shí)別、質(zhì)量評(píng)估和質(zhì)量提升三方聯(lián)合起來(lái),要想連接這三塊就需要進(jìn)行視覺(jué)數(shù)據(jù)表征工作,這也是視覺(jué)大數(shù)據(jù)工作的核心。視覺(jué)大數(shù)據(jù)表征過(guò)程可以分為三個(gè)框架:局部特征提取、全局特征整合和高層特征優(yōu)化。為了便于理解,現(xiàn)場(chǎng)全教授以貓為例,通俗易懂地介紹了視覺(jué)數(shù)據(jù)表征工作的內(nèi)容:每一只貓都有不同的表征,就是說(shuō)同一只貓也有不同的pose,所以這就需要建立一個(gè)三維空間,來(lái)幫助系統(tǒng)分析識(shí)別,而不是在原圖上進(jìn)行操作。 視覺(jué)數(shù)據(jù)表征工作目前有兩種路線:一是物理驅(qū)動(dòng),研究者會(huì)考慮一些數(shù)學(xué)模型,或者圖形本身的面積等物理屬性,進(jìn)而利用分形等數(shù)學(xué)工具,進(jìn)行數(shù)學(xué)建模與算法設(shè)計(jì);二是數(shù)據(jù)驅(qū)動(dòng),可以依據(jù)大數(shù)據(jù),得到較好的視覺(jué)數(shù)據(jù)表征。
最后,全宇暉教授表示,視覺(jué)大數(shù)據(jù)工作的下一個(gè)重心就是建立有機(jī)聯(lián)動(dòng)框架,并引入多元多模態(tài)數(shù)據(jù)融合,進(jìn)行變尺度視覺(jué)數(shù)據(jù)分析進(jìn)而根據(jù)數(shù)據(jù)本身進(jìn)行高階視覺(jué)關(guān)聯(lián)信息挖掘。